Usiłuję zrozumieć wyprowadzenie oczekiwanego błędu prognozy na niższy poziom (ESL), szczególnie na podstawie wyprowadzenia 2.11 i 2.12 (warunkowanie, krok w kierunku minimum punktowego). Wszelkie wskazówki lub linki są mile widziane.
Poniżej raportuję fragment z ESL str. 18. Pierwsze dwa równania to w kolejności równanie 2.11 i 2.12.
Niech oznacza losowy wektor wejściowy o wartościach rzeczywistych, a losową zmienną wyjściową o wartościach rzeczywistych, ze wspólnym rozkładem . Dążyć funkcję dla przewidywania danej wartości wejściowego . Teoria ta wymaga funkcji straty do karania błędów w prognozowaniu, a zdecydowanie najbardziej powszechną i dogodną jest kwadratowa utrata błędów : . To prowadzi nas do kryterium wyboru ,
oczekiwany (przewidywany) błąd prognozowania. Uwzględniając , możemy napisać EPE jako
i widzimy, że wystarczy zminimalizować EPE punktowo:
Rozwiązaniem jest
oczekiwanie warunkowe, znane również jako funkcja regresji .
źródło
Odpowiedzi:
źródło
Równanie (2.11) jest konsekwencją następującej małej równości. Dla dowolnych dwóch zmiennych losowych i Z 2 oraz dowolnej funkcji gZ1 Z2 g
Oznaczenie jest oczekiwaniem na łączny rozkład. Notacja E Z 1 ∣ Z 2 zasadniczo mówi „całkuj w rozkładzie warunkowym Z 1 tak, jakby Z 2 był stały”.EZ1,Z2 EZ1∣Z2 Z1 Z2
Łatwo to zweryfikować w przypadku, gdy i Z 2 są dyskretnymi zmiennymi losowymi, po prostu odwijając odpowiednie definicjeZ1 Z2
The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.
To unwind the application, takeZ1=Y , Z2=X , and g(x,y)=(y−f(x))2 . Everything lines up exactly.
The assertion (2.12) asks us to consider minimizing
where we are free to choosef as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing
Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choosef to minimize
individually for each discrete value ofx . This is exactly the content of what ESL is claiming, only with fancier notation.
źródło
I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.
I will try to make it simple and hope that you can get rid of confusion.
Claim 1 (Smoothing)E(X)=E(E(X|Y)),∀X,Y
Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.
Claim 2:E(Y−f(X))2≥E(Y−E(Y|X))2,∀f
Proof:
Taking expectation both sides of the above equation give Claim 2 (Q.E.D)
Therefore, the optimal f isf(X)=E(Y|X)
źródło