Co należy rozumieć przez wariancję * funkcji * w * Wstęp do nauki statystycznej *?

11

Na str. 34 wstępu do nauki statystycznej :

Choć dowód matematyczny jest poza zakresem tej książki, jest możliwe, aby pokazać, że oczekiwany MSE testy, dla danej wartości , zawsze można rozłożyć na sumę trzech podstawowych ilości: w sprzeczności z f ( x 0 ) , kwadrat Odchylenie od f ( x 0 ) , a wariancja błędu warunki ε . To jest,x0f^(x0)f^(x0)ε

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Odchylenie odnosi się do ilości, w którym F uległaby zmianie, gdyby oszacowano je za pomocą różnych zbiorów danych.f^

Pytanie: Od wydaje się oznaczać wariancji funkcji , co to oznacza formalnie?Var(f^(x0))

To znaczy, jestem zaznajomiony z koncepcją wariancji zmiennej losowej , ale co z wariancją zestawu funkcji? Czy można to traktować jako wariancję innej zmiennej losowej, której wartości przyjmują postać funkcji?X

Jerzy
źródło
6
Biorąc pod uwagę, że za każdym razem, f pojawia się w formule została zastosowana do „danej wartości” x 0 , wariancja odnosi się do liczby f ( x 0 ) , a nie f sama. Ponieważ liczba ta została prawdopodobnie opracowana na podstawie danych modelowanych zmiennymi losowymi, jest ona również zmienną losową (o wartości rzeczywistej). Obowiązuje zwykła koncepcja wariancji. f^x0 f^(x0)f^
whuber
2
Widzę. Więc f zmienia (różnej w różnych zestawów danych szkolenia), ale nadal wyglądają na wariancji f ( x 0 ) sami. f^f^(x0)
George
Kto jest autorem tego podręcznika? Chciałem sam nauczyć się tego tematu i bardzo doceniam twoje referencje.
Chill2Macht
3
@WilliamKrinsman To jest książka: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Odpowiedzi:

13

Twoja korespondencja z @whuber jest poprawna.

Algorytm uczenia się może być postrzegany jako funkcja wyższego poziomu, odwzorowująca zestawy szkoleniowe na funkcje.A

A:T{ff:XR}

gdzie jest przestrzenią możliwych zestawów treningowych. Może to być nieco owłosione koncepcyjnie, ale w zasadzie każdy zestaw treningowy daje wyniki, po zastosowaniu algorytmu modelowania treningu, w funkcji specyficznej f, której można użyć do prognozowania na podstawie punktu danych x .Tfx

Jeśli spojrzymy na przestrzeń zbiorów treningowych jako przestrzeń prawdopodobieństwa, tak że istnieje pewien rozkład możliwych zbiorów danych treningowych, wówczas algorytm modelowania szkolenia staje się zmienną losową o wartości funkcji i możemy myśleć o pojęciach statystycznych. W szczególności, jeśli naprawimy określony punkt danych , otrzymamy losową zmienną o wartości liczbowejx0

Ax0(T)=A(T)(x0)

To znaczy najpierw wytrenuj algorytm na , a następnie oceń uzyskany model na x 0 . To jest po prostu stara, ale raczej genialnie skonstruowana, losowa zmienna w przestrzeni prawdopodobieństwa, więc możemy mówić o jej wariancji. To jest różnica w twojej formule od ISL.Tx0

Matthew Drury
źródło
5

Interpretacja wizualna przy użyciu powtarzanych kfolds

Aby dać wizualną / intuicyjną interpretację odpowiedzi @Matthew Drury, rozważ następujący przykład zabawki.

  • Dane są generowane z hałaśliwej krzywej sinusoidalnej: „True hałas”f(x) +
  • Dane są podzielone między próbki szkoleniowe i testowe (75% - 25%)
  • Wzór liniowa (wielomian) jest dopasowana do danych f^(x)
  • Proces ten powtarza się wiele razy przy użyciu tych samych danych (tj. Dzielenie treningu - losowe testowanie przy użyciu powtarzanego kfold Sklearm)
  • Generuje to wiele różnych modeli, na podstawie których obliczamy średnią i wariancję w każdym punkcie jak również we wszystkich punktach.x=xi

Poniższe wykresy przedstawiają model wielomianowy stopnia 2 i stopnia 6. Na pierwszy rzut oka wydaje się, że wyższy wielomian (czerwony) ma większą wariancję.

enter image description here

Twierdzenie, że czerwony wykres ma większą wariancję - eksperymentalnie

f^gf^rf^(i)nxmn=400m=200

Widzę trzy główne scenariusze

  1. x=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. The variance in (1) is greater for all points {x1,...,x400} in the range (0,1)
  3. The variance is greater on average (i.e. may be smaller for some points)

In the case of this toy example, all three scenarios hold true over the range (0,1) which justifies the argument that the higher order polynomial fit (in red) has higher variance than the lower order polynomial (in green).

An open ended conclusion

What should be argued when the above three scenarios do not all hold. For example, what if the variance of the red predictions is greater on average, but not for all points.

Details of the labels

Consider point x0=0.5

  • The error bar is the range between min and max of f^(x0)
  • The variance is computed at x0
  • True f(x) is the dotted blue line
Xavier Bourret Sicotte
źródło
I like this idea of illustrating a concept using pictures. I wonder about two aspects of your post, though, and hope you might be able to address them. First, could you more explicitly explain how these plots show the "variance of a function"? Second, it's not at all clear that the red plot exhibits "greater variance" or even that the two plots are amenable to such a simplistic comparison. Consider the vertical spread of red values above x=0.95, for instance, and compare that to the spread of the green values at the same point: the red ones look a little less spread than the green ones.
whuber
My point is not whether it's possible to read your plots with high precision: it's that the meaning of comparing two such plots as if one could be considered of "higher" or "lower" variance than the other is questionable, given the possibility that for some ranges of x the variances of the predictions will be higher in one plot and for other ranges of x the variances will be lower.
whuber
Yes I agree - I have edited the post to reflect your comments
Xavier Bourret Sicotte