W prostej regresji liniowej, skąd bierze się wzór na wariancję reszt?

21

Zgodnie z tekstem, którego używam, wzór na wariancję reszty podaje:ith

σ2(11n(xix¯)2Sxx)

I trudno w wierzyć od końcowa jest różnica pomiędzy obserwowanych wartości i wartość zmontowanym; jeśliby obliczyć wariancję różnicy, przynajmniej oczekiwałbym pewnych „plusów” w wynikowym wyrażeniu. Każda pomoc w zrozumieniu pochodnej będzie mile widziana.ithithith

Eric
źródło
Czy to możliwe, że niektóre znaki „ ” w tekście są źle renderowane (lub błędnie odczytywane) jako znaki „ ”? +
whuber
Tak myślałem, ale zdarzyło się to dwa razy w tekście (2 różne rozdziały), więc pomyślałem, że to mało prawdopodobne. Oczywiście pomocne byłoby wyprowadzenie wzoru! :)
Eric
Negatywy są wynikiem dodatniej korelacji między obserwacją a jej dopasowaną wartością, co zmniejsza wariancję różnicy.
Glen_b
@Glen Dziękujemy za wyjaśnienie, dlaczego okazuje się, że formuła ma sens, wraz z wyprowadzeniem macierzy poniżej.
Eric

Odpowiedzi:

27

Intuicja na temat znaków „plus” związanych z wariancją (z faktu, że nawet gdy obliczamy wariancję różnicy niezależnych zmiennych losowych, dodajemy ich wariancje) jest poprawna, ale śmiertelnie niekompletna: jeśli zaangażowane zmienne losowe nie są niezależne , zaangażowane są również kowariancje - i kowariancje mogą być ujemne. Istnieje wyrażenie, które jest prawie podobne do wyrażenia w pytaniu, które uważano, że „powinno” być przez OP (i mnie), i jest to wariant błędu prognozowania , oznacz to , gdzie :r 0 = β 0 + β 1 x 0 + U 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

Krytyczna różnica między wariancją błędu prognozowania a wariancją błędu oszacowania (tj. Resztkowego) polega na tym, że wartość błędu przewidywanej obserwacji nie jest skorelowana z estymatorem , ponieważ wartość nie została użyta w konstruowanie estymatora i obliczanie szacunków, będących wartością spoza próby.y0

Algebra dla obu przebiega dokładnie w ten sam sposób do pewnego punktu (używając zamiast ), ale potem się rozbiera. Konkretnie:i0i

W prostej regresji liniowej , , wariancja estymatora jest nadal Var ( u i ) = σ 2 β = ( β 0 , p 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

Mamy

XX=[nxixixi2]

a więc

(XX)1=[xi2xixin][nxi2(xi)2]1

Mamy

[nxja2)-(xja)2)]=[nxja2)-n2)x¯2)]=n[xja2)-nx¯2)]=n(xja2)-x¯2))nS.xx

Więc

(XX)-1=[(1/n)xja2)-x¯-x¯1](1/S.xx)

co oznacza że

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

-tym resztkową określa się jakoi

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

Rzeczywiste współczynniki są traktowane jako stałe The REGRESSOR jest przymocowany (lub uzależnione od tego) i ma zerową wartość kowariancji z terminu błędu, ale że estymatory są skorelowane ze składnika błędu, ponieważ estymatory zawierać zmienną zależną, a zmienna zależna zawiera termin błędu. Więc mamy

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2)Cov([(β0-β^0)+(β1-β^1)xja],uja)

=[σ2)+σ2)(1n+x¯2)S.xx)+xja2)σ2)(1/S.xx)+2)Cov([(β0-β^0)+(β1-β^1)xja],uja)

Spakuj to trochę, aby uzyskać

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

Termin w dużym nawiasie ma dokładnie taką samą strukturę z wariancją błędu prognozowania, z tą jedyną zmianą, że zamiast będziemy mieć (i wariancja będzie a nie ). Ostatni warunek kowariancji wynosi zero dla błędu prognozowania, ponieważ a zatem nie jest uwzględniony w estymatorach, ale nie zero dla błędu oszacowania, ponieważ a zatem jest częścią próbki, a zatem jest uwzględniony w taksator. Mamyx 0 E 0 U i Y 0 U 0 r I u Ixix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

ostatnie podstawienie z obliczania . Kontynuując,β^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

Wstawiamy to do wyrażenia wariancji reszty, otrzymujemy

Var(u^i)=σ2(11n(xix¯)2Sxx)

Czapki z głów przed tekstem używanym przez OP.

(Pominąłem pewne manipulacje algebraiczne, nic dziwnego, że algebry OLS uczy się coraz mniej…)

NIEKTÓRE INTUICJE

Wydaje się więc, że to, co działa „przeciwko” nam (większa wariancja) podczas przewidywania, działa „dla nas” (mniejsza wariancja) podczas szacowania. Jest to dobry punkt wyjścia do zastanowienia się, dlaczego doskonałe dopasowanie może być złym znakiem dla zdolności prognozowania modelu (choć może to zabrzmieć intuicyjnie ...).
Fakt, że jest oszacowanie oczekiwaną wartość regressor, zmniejsza się zmienność przez . Dlaczego? ponieważ poprzez oszacowanie „zamykamy oczy” na pewną zmienność błędów występującą w próbie, ponieważ zasadniczo szacujemy wartość oczekiwaną. Ponadto, im większe jest odchylenie obserwacji regresora od średniej próbki regresora,1/nwariancja reszty związana z tą obserwacją będzie ... im bardziej dewiacyjna obserwacja, tym mniej dewiacyjna jej reszta ... To zmienność regresorów, która działa dla nas, poprzez „zajęcie” nieznanego błędu - zmienność.

Ale to dobrze dla oceny . W przypadku przewidywania te same rzeczy zwracają się przeciwko nam: teraz, nie biorąc pod uwagę, jakkolwiek niedoskonale, zmienności (ponieważ chcemy to przewidzieć), nasze niedoskonałe estymatory uzyskane z próby pokazują ich słabości: oszacowaliśmy średnia próbka, nie znamy prawdziwej oczekiwanej wartości - wariancja rośnie. Mamy które jest daleko od średniej próbki obliczonej na podstawie innych obserwacji - źle, nasza wariancja błędu prognozy dostaje kolejne wzmocnienie, ponieważ przewidywany będzie miał tendencję do błądzenia ... więcej język naukowy "optymalne predyktory w sensie zmniejszonej wariancji błędu prognozy, reprezentująy0x0 y^0skurczenie w kierunku średniej przewidywanej zmiennej ". Nie próbujemy powielać zmienności zmiennej zależnej - po prostu staramy się pozostać" blisko średniej ".

Alecos Papadopoulos
źródło
Dziękuję za bardzo jasną odpowiedź! Cieszę się, że moja „intuicja” była poprawna.
Eric
Alecos, naprawdę nie sądzę, żeby to było właściwe.
Glen_b
@Alecos błąd polega na tym, że oszacowania parametrów są nieskorelowane z terminem błędu. Ta część: jest niewłaściwy. Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)
Glen_b
@Eric Przepraszam, że wprowadziłem cię w błąd wcześniej. Starałem się zapewnić intuicję dla obu formuł.
Alecos Papadopoulos,
+1 Możesz zobaczyć, dlaczego zrobiłem dla tego przypadku przypadek wielokrotnej regresji ... dzięki za włożenie dodatkowego wysiłku w wykonanie przypadku prostej regresji.
Glen_b
19

Przepraszam za nieco zwięzłą odpowiedź, być może zbyt abstrakcyjną i pozbawioną pożądanej intuicyjnej prezentacji, ale postaram się wrócić i dodać kilka szczegółów później. Przynajmniej jest krótki.

Biorąc pod uwagę ,H.=X(XT.X)-1XT.

Var(y-y^)=Var((ja-H.)y)=(ja-H.)Var(y)(ja-H.)T.=σ2)(ja-H.)2)=σ2)(ja-H.)

Stąd

Var(yja-y^ja)=σ2)(1-hjaja)

W przypadku prostej regresji liniowej ... daje to odpowiedź na twoje pytanie.

Ta odpowiedź ma również sens: ponieważ jest pozytywnie skorelowane z , wariancja różnicy powinna być mniejsza niż suma wariancji.y^jayja

-

Edycja: wyjaśnienie, dlaczego jest idempotentny .(ja-H.)

(i) jest idempotentny:H.

H.2)=X(XT.X)-1XT.X(XT.X)-1XT. =X [(XT.X)-1XT.X] (XT.X)-1XT.=X(XT.X)-1XT.=H.

(ii)(ja-H.)2)=ja2)-jaH.-H.ja+H.2)=ja-2)H.+H.=ja-H.

Glen_b - Przywróć Monikę
źródło
1
Jest to bardzo ładne pochodne ze względu na swoją prostotę, chociaż dla mnie nie jest jasne, dlaczego . Być może, kiedy nieco rozszerzysz swoją odpowiedź, co i tak planujesz, możesz coś o tym powiedzieć? (IH)2=(IH)
Jake Westfall,
@Jake Dodał kilka linii na końcu
Glen_b