Zgodnie z tekstem, którego używam, wzór na wariancję reszty podaje:
I trudno w wierzyć od końcowa jest różnica pomiędzy obserwowanych wartości i wartość zmontowanym; jeśliby obliczyć wariancję różnicy, przynajmniej oczekiwałbym pewnych „plusów” w wynikowym wyrażeniu. Każda pomoc w zrozumieniu pochodnej będzie mile widziana.
Odpowiedzi:
Intuicja na temat znaków „plus” związanych z wariancją (z faktu, że nawet gdy obliczamy wariancję różnicy niezależnych zmiennych losowych, dodajemy ich wariancje) jest poprawna, ale śmiertelnie niekompletna: jeśli zaangażowane zmienne losowe nie są niezależne , zaangażowane są również kowariancje - i kowariancje mogą być ujemne. Istnieje wyrażenie, które jest prawie podobne do wyrażenia w pytaniu, które uważano, że „powinno” być przez OP (i mnie), i jest to wariant błędu prognozowania , oznacz to , gdzie :r 0 = β 0 + β 1 x 0 + U 0e0=y0−y^0 y0=β0+β1x0+u0
Krytyczna różnica między wariancją błędu prognozowania a wariancją błędu oszacowania (tj. Resztkowego) polega na tym, że wartość błędu przewidywanej obserwacji nie jest skorelowana z estymatorem , ponieważ wartość nie została użyta w konstruowanie estymatora i obliczanie szacunków, będących wartością spoza próby.y0
Algebra dla obu przebiega dokładnie w ten sam sposób do pewnego punktu (używając zamiast ), ale potem się rozbiera. Konkretnie:i0 i
W prostej regresji liniowej , , wariancja estymatora jest nadal Var ( u i ) = σ 2 β = ( β 0 , p 1 ) 'yi=β0+β1xi+ui Var(ui)=σ2 β^=(β^0,β^1)′
Mamy
a więc
Mamy
Więc
co oznacza że
-tym resztkową określa się jakoi
Rzeczywiste współczynniki są traktowane jako stałe The REGRESSOR jest przymocowany (lub uzależnione od tego) i ma zerową wartość kowariancji z terminu błędu, ale że estymatory są skorelowane ze składnika błędu, ponieważ estymatory zawierać zmienną zależną, a zmienna zależna zawiera termin błędu. Więc mamy
Spakuj to trochę, aby uzyskać
Termin w dużym nawiasie ma dokładnie taką samą strukturę z wariancją błędu prognozowania, z tą jedyną zmianą, że zamiast będziemy mieć (i wariancja będzie a nie ). Ostatni warunek kowariancji wynosi zero dla błędu prognozowania, ponieważ a zatem nie jest uwzględniony w estymatorach, ale nie zero dla błędu oszacowania, ponieważ a zatem jest częścią próbki, a zatem jest uwzględniony w taksator. Mamyx 0 E 0 U i Y 0 U 0 r I u Ixi x0 e0 u^i y0 u0 yi ui
ostatnie podstawienie z obliczania . Kontynuując,β^0
Wstawiamy to do wyrażenia wariancji reszty, otrzymujemy
Czapki z głów przed tekstem używanym przez OP.
(Pominąłem pewne manipulacje algebraiczne, nic dziwnego, że algebry OLS uczy się coraz mniej…)
NIEKTÓRE INTUICJE
Wydaje się więc, że to, co działa „przeciwko” nam (większa wariancja) podczas przewidywania, działa „dla nas” (mniejsza wariancja) podczas szacowania. Jest to dobry punkt wyjścia do zastanowienia się, dlaczego doskonałe dopasowanie może być złym znakiem dla zdolności prognozowania modelu (choć może to zabrzmieć intuicyjnie ...).1/n wariancja reszty związana z tą obserwacją będzie ... im bardziej dewiacyjna obserwacja, tym mniej dewiacyjna jej reszta ... To zmienność regresorów, która działa dla nas, poprzez „zajęcie” nieznanego błędu - zmienność.
Fakt, że jest oszacowanie oczekiwaną wartość regressor, zmniejsza się zmienność przez . Dlaczego? ponieważ poprzez oszacowanie „zamykamy oczy” na pewną zmienność błędów występującą w próbie, ponieważ zasadniczo szacujemy wartość oczekiwaną. Ponadto, im większe jest odchylenie obserwacji regresora od średniej próbki regresora,
Ale to dobrze dla oceny . W przypadku przewidywania te same rzeczy zwracają się przeciwko nam: teraz, nie biorąc pod uwagę, jakkolwiek niedoskonale, zmienności (ponieważ chcemy to przewidzieć), nasze niedoskonałe estymatory uzyskane z próby pokazują ich słabości: oszacowaliśmy średnia próbka, nie znamy prawdziwej oczekiwanej wartości - wariancja rośnie. Mamy które jest daleko od średniej próbki obliczonej na podstawie innych obserwacji - źle, nasza wariancja błędu prognozy dostaje kolejne wzmocnienie, ponieważ przewidywany będzie miał tendencję do błądzenia ... więcej język naukowy "optymalne predyktory w sensie zmniejszonej wariancji błędu prognozy, reprezentująy0 x0 y^0 skurczenie w kierunku średniej przewidywanej zmiennej ". Nie próbujemy powielać zmienności zmiennej zależnej - po prostu staramy się pozostać" blisko średniej ".
źródło
Przepraszam za nieco zwięzłą odpowiedź, być może zbyt abstrakcyjną i pozbawioną pożądanej intuicyjnej prezentacji, ale postaram się wrócić i dodać kilka szczegółów później. Przynajmniej jest krótki.
Biorąc pod uwagę ,H.= X( XT.X)- 1XT.
Stąd
W przypadku prostej regresji liniowej ... daje to odpowiedź na twoje pytanie.
Ta odpowiedź ma również sens: ponieważ jest pozytywnie skorelowane z , wariancja różnicy powinna być mniejsza niż suma wariancji.y^ja yja
-
Edycja: wyjaśnienie, dlaczego jest idempotentny .( Ja- H)
(i) jest idempotentny:H.
(ii)( Ja- H)2)= Ja2)- jaH.- Hja+ H2)= Ja- 2 godz+ H= Ja- H
źródło