Dowód, że współczynniki w modelu OLS są zgodne z rozkładem t z (nk) stopniami swobody

29

tło

Załóżmy, że mamy model zwykłych najmniejszych kwadratów, w którym mamy współczynniki w naszym modelu regresji, k

y=Xβ+ϵ

gdzie to wektor współczynników , to macierz projektowa zdefiniowana przezβ(k×1)X

X=(1x11x12x1(k1)1x211xn1xn(k1))
a błędy to IID normal,
ϵN(0,σ2I).

Minimalizujemy błędy sumy do kwadratu, ustawiając nasze szacunki dla na beta = ( X , T X ) - 1 X t yβ

β^=(XTX)1XTy.

Bezstronnym estymatorem σ2 jest

s2=yy^2np
Gdzie y^Xβ^ ( ref ).

Kowariancja β^ jest podana przez

Cov(β^)=σ2)do
gdzie do(XT.X)-1 ( ref ).

Pytanie

Jak mogę udowodnić, że dla β^ja ,

β^ja-βjasβ^jatn-k
gdzie tn-k jest rozkład t z (n-k) stopniami swobody, a standardowy błąd β^ja jest szacowany przez sβ^ja=sdojaja .

Moje próby

Wiem, że dla losowych zmiennych próbkowanych z możesz pokazać, że przepisując LHS jako i zdając sobie sprawę, że licznik jest standardowym rozkładem normalnym, a mianownik jest pierwiastkiem kwadratowym rozkładu Chi-kwadrat o df = (n-1) i podzielonym przez (n- 1) ( ref ). I dlatego następuje rozkład t z df = (n-1) ( ref ).x N ( μ , σ 2 ) ˉ x - μnxN.(μ,σ2))( ˉ x -μ

x¯-μs/ntn-1
(x¯-μσ/n)s2)/σ2)

Nie mogłem rozszerzyć tego dowodu na moje pytanie ...

Jakieś pomysły? Zdaję sobie sprawę z tego pytania , ale nie dowodzą tego wprost, po prostu dają ogólną zasadę, mówiąc: „każdy predyktor kosztuje cię do pewnego stopnia swobody”.

Garrett
źródło
Ponieważ jest liniową kombinacją zmiennych normalnych, ma rozkład normalny. Dlatego wszystko, co musisz zrobić, to (1) ustalić, że ; (2) pokaż, że jest obiektywnym estymatorem ; i (3) pokazują stopnie swobody w to . Ten ostatni został sprawdzony na tej stronie w kilku miejscach, takich jak stats.stackexchange.com/a/16931 . Podejrzewam, że już wiesz, jak to zrobić (1) i (2). E( β I)=βis 2 β i Var( β I)y β In-Kβ^jami(β^ja)=βjasβ^ja2)Var(β^ja)sβ^jan-k
whuber

Odpowiedzi:

32

Ponieważ wiemy, że , a więc wiadomo, że dla każdego składnika o , gdzie to element przekątnej w . Wiemy zatem, że β -β~N(0,σ2(X, TX)-1)k β β k-βk~N(0,σ2SKk)Skkkth(XTX

β^=(XT.X)-1XT.Y=(XT.X)-1XT.(Xβ+ε)=β+(XT.X)-1XT.ε
β^-βN.(0,σ2)(XT.X)-1)
kβ^
β^k-βkN.(0,σ2)S.kk)
S.kkkth z k =(XT.X)-1
zk=β^k-βkσ2)S.kkN.(0,1).

Zwróć uwagę na twierdzenie Twierdzenia o rozkładzie idempotentnej postaci kwadratowej w standardowym wektorze normalnym (Twierdzenie B.8 w Greene):

Jeśli i jest symetryczny i idempotent, a rozdziela , gdzie jest rangę .A x T A x χ 2 ν ν AxN.(0,ja)ZAxT.ZAxχν2)νZA

Niech oznacza resztkowy wektor regresji i niech który jest macierzą rezydującego twórcy (tj. ) . Łatwo jest sprawdzić, czy jest symetryczny i idempotentny . M=min-X(X, TX)-1Xt,Mr= ε Mε^

M.=jan-X(XT.X)-1XT.,
M.y=ε^M.

Niech będzie estymatorem . σ2

s2)=ε^T.ε^n-p
σ2)

Następnie musimy wykonać algebrę liniową. Zwróć uwagę na te trzy właściwości algebry liniowej:

  • Ranga idempotentnej matrycy jest jej śladem.
  • Tr(ZA1+ZA2))=Tr(ZA1)+Tr(ZA2))
  • A 1 n 1 × n 2 A 2 n 2 × n 1Tr(ZA1ZA2))=Tr(ZA2)ZA1) jeśli to a to ( ta właściwość ma kluczowe znaczenie dla działania poniższych )ZA1n1×n2)ZA2)n2)×n1

Więc

rank(M)=Tr(M)=Tr(InX(XTX)1XT)=Tr(In)Tr(X(XTX)1XT))=Tr(In)Tr((XTX)1XTX))=Tr(In)Tr(Ip)=np

Następnie

V=(np)s2σ2=ε^Tε^σ2=(εσ)TM(εσ).

Stosując twierdzenie o rozkładzie idempotentnej postaci kwadratowej w standardowym wektorze normalnym (podanym powyżej), wiemy, że .Vχnp2

Ponieważ założyłeś, że jest zwykle dystrybuowany, to jest niezależny od , a ponieważ jest funkcją , to jest również niezależne od . Zatem iεβ^ε^s2ε^s2β^zkV są od siebie niezależne.

tk=zkV/(np)
npttktnp

Następnie można go manipulować algebraicznie w bardziej znaną formę.

tk=β^kβkσ2Skk(np)s2σ2/(np)=β^kβkSkks2=β^kβks2Skk=β^kβkse(β^k)
Niebieski znacznik
źródło
Theorem for the Distribution of an Idempotent Quadratic Form in a Standard Normal VectorAA=(1100)x12+x1x2
1
ZAM.
1
AA(x1,x2)x12+x1x2ZA=(11/2)1/2)0)idempotentny.
whuber
1
ϵN.(0,σ2))β^ϵ^
1
β^ε^β^=β+(XX)-1Xεε^=M.εCov(β^,ε^)=0p×n