Oczekiwany błąd prognozy - wyprowadzenie

20

Usiłuję zrozumieć wyprowadzenie oczekiwanego błędu prognozy na niższy poziom (ESL), szczególnie na podstawie wyprowadzenia 2.11 i 2.12 (warunkowanie, krok w kierunku minimum punktowego). Wszelkie wskazówki lub linki są mile widziane.

Poniżej raportuję fragment z ESL str. 18. Pierwsze dwa równania to w kolejności równanie 2.11 i 2.12.


Niech oznacza losowy wektor wejściowy o wartościach rzeczywistych, a losową zmienną wyjściową o wartościach rzeczywistych, ze wspólnym rozkładem . Dążyć funkcję dla przewidywania danej wartości wejściowego . Teoria ta wymaga funkcji straty do karania błędów w prognozowaniu, a zdecydowanie najbardziej powszechną i dogodną jest kwadratowa utrata błędów : . To prowadzi nas do kryterium wyboru ,XRpYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

oczekiwany (przewidywany) błąd prognozowania. Uwzględniając , możemy napisać EPE jakoX

EPE(f)=EXEY|X([Yf(X)]2|X)

i widzimy, że wystarczy zminimalizować EPE punktowo:

f(x)=argmincEY|X([Yc]2|X)

Rozwiązaniem jest

f(x)=E(Y|X=x)

oczekiwanie warunkowe, znane również jako funkcja regresji .

użytkownik1885116
źródło
Zamiana i w pierwszym równaniu w artykule z Wikipedii na temat prawa całkowitego oczekiwania daje równoważność (2.9) i (2.11). Przeczytaj ten artykuł dla dowodów. (2.12) jest natychmiastowy, przy założeniu, że należy wybrać w celu zminimalizowania EPE. XYf
whuber
3
Uwaga dodatkowa:
Pochodzi
2
Dla tych, którzy również czytają tę książkę, zapoznaj się z tymi obszernymi notatkami Weathermaxa i Epsteina
Dodgie
@Dodgie Ten link nie żyje: (
Matthew Drury
2
@MatthewDrury Na szczęście przeglądanie „statystyk Weathermaxa i Epsteina” zwróciło link jako pierwszy wynik;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…
Dodgie

Odpowiedzi:

16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)
użytkownik48002
źródło
3
Rozumiem, co napisałeś, ale czy uważasz, że jeśli OP byłby zdezorientowany pochodną pokazaną w pytaniu, to on / ona zrozumie twoją odpowiedź? oczywiście już zrozumiałem pochodzenie pokazane w pytaniu.
Mark L. Stone,
Przybyłem tutaj z Google z tym samym pytaniem i faktycznie stwierdziłem, że to pochodzenie jest dokładnie tym, czego potrzebowałem.
Średnik i taśma
1
@ MarkL.Stone - może to być głupie pytanie, ale czy mógłbyś wyjaśnić, co oznacza i jak staje się p ( x , y ) d x d y ? Wielkie dziękiPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte
1
Przez pierwsze rozumie się drugie. Myślę, że bardziej powszechne jest użycie dP (x, y) lub dF (x, y). W 1D często dF (x) oznacza f (x) dx, gdzie f (x) jest funkcją gęstości prawdopodobieństwa, ale notacja może również uwzględniać dyskretną funkcję masy prawdopodobieństwa (w sumie) lub nawet mieszaninę ciągła gęstość i dyskretna masa prawdopodobieństwa.
Mark L. Stone,
Czy nie byłoby dokładniej powiedzieć (ostatnia formuła) ? EX(EY|X([Yf(X)]2|X=x))
D1X
11

Równanie (2.11) jest konsekwencją następującej małej równości. Dla dowolnych dwóch zmiennych losowych i Z 2 oraz dowolnej funkcji gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

Oznaczenie jest oczekiwaniem na łączny rozkład. Notacja E Z 1Z 2 zasadniczo mówi „całkuj w rozkładzie warunkowym Z 1 tak, jakby Z 2 był stały”.EZ1,Z2EZ1Z2Z1Z2

Łatwo to zweryfikować w przypadku, gdy i Z 2 są dyskretnymi zmiennymi losowymi, po prostu odwijając odpowiednie definicjeZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take Z1=Y, Z2=X, and g(x,y)=(yf(x))2. Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

EXEYX(Yf(X))2

where we are free to choose f as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose f to minimize

y(yf(x))2Pr(Y=yX=x)

individually for each discrete value of x. This is exactly the content of what ESL is claiming, only with fancier notation.

Matthew Drury
źródło
8

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

thanhtang
źródło