Zrozumienie testu t dla regresji liniowej

17

Próbuję wypracować sposób przeprowadzenia testu hipotez regresji liniowej (hipoteza zerowa nie koreluje). Wydaje się, że każdy przewodnik i strona na temat, na które natrafiam, używa testu t-testowego. Ale nie rozumiem, co tak naprawdę oznacza test t dla regresji liniowej. Test t, o ile nie mam całkowicie błędnego zrozumienia lub modelu mentalnego, służy do porównania dwóch populacji. Ale regressor i regressand nie są próbkami podobnych populacji i mogą nawet nie być tej samej jednostki, więc ich porównywanie nie ma sensu.

Tak więc, gdy używamy testu t na regresji liniowej, co tak naprawdę robimy?

jaymmer - Przywróć Monikę
źródło

Odpowiedzi:

37

Prawdopodobnie myślisz o dwóch próbnych testach t ponieważ często jest to pierwsze miejsce, w którym pojawia się rozkład t . Ale tak naprawdę wszystko, co oznacza test t polega na tym, że rozkład odniesienia dla statystyki testu jest rozkładem t . Jeśli ZN(0,1) i S2χd2 z Z i S2niezależnych 2 , to

ZS2/dtd
z definicji. Piszę to, aby podkreślić, żerozkładtjest tylko nazwą, która została nadana rozkładowi tego stosunku, ponieważ często się pojawia, a wszystko w tej formie będzie miałot rozkład . W przypadku testu t dla dwóch próbek współczynnik ten pojawia się, ponieważ pod zerą różnica średnich jest zerową średnią Gaussa, a oszacowanie wariancji dla niezależnych Gaussian jest niezależne χ2 (niezależność można wykazać za pomocą twierdzenia Basu który wykorzystuje fakt, że standardowe oszacowanie wariancji w próbce Gaussa jest pomocnicze w stosunku do średniej populacji, podczas gdy średnia próby jest kompletna i wystarczająca dla tej samej ilości).

Z regresją liniową uzyskujemy w zasadzie to samo. W postaci β^N(β,σ2(XTX)1) . Niech Sj2=(XTX)jj1 i przyjmijmy, że predyktory X są nieprzypadkowe. Gdybyśmy wiedzieli, σ2 musielibyśmy p j - 0 pod zerowymH0:βj=0,więc faktycznie mielibyśmy test Z. Ale gdy szacujemyσ2możemy skończyć zχ2zmiennej losowej, że zgodnie z naszymi założeniami normalności okazuje się być niezależne od naszej statystycznej p ja następnie otrzymujemytdystrybucję.

β^j0σSjN(0,1)
H0:βj=0σ2χ2β^jt

Oto szczegóły: załóżmy . Niech H = X ( X T X ) - 1 X T będzie macierzą kapelusza, którą mamy e 2 = ( I - H ) y 2 = y T ( I - H ) y . H jest idempotentny, więc mamy naprawdę fajny wynik yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H z parametrem niecentralności δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , więc w rzeczywistości jest to centralna χ 2 z n - p
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2np stopnie swobody (jest to szczególny przypadek twierdzenia Cochrana ). Używam p do oznaczenia liczby kolumn , więc jeśli jedna kolumna X daje punkt przecięcia, mielibyśmy p - 1 predyktory nieprzechodzące. Niektórzy autorzy używają p jako liczby predyktorów przechwytujących, więc czasami możesz zobaczyć coś takiego jak n - p - 1 w stopniach swobody, ale to wszystko to samo.XXp1pnp1

Wynikiem tego jest to, że , więc σ 2 : = 1E(eTe/σ2)=npdziała świetnie jako estymatorσ2.σ^2:=1npeTeσ2

Oznacza to, że β j to stosunek standardowego kwadratu Gaussa do chi kwadrat podzielony przez stopnie swobody. Aby to zakończyć, musimy wykazać się niezależnością i możemy użyć następującego wyniku:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Wyniki: dla i macierzy i B w R l x K i R m x K odpowiednio Z i B Z są niezależnie wtedy i tylko wtedy, gdy Σ B , T = 0 (to wykonywanie 58 (b) w rozdziale 1 statystyk matematycznych Jun Shao ).ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

Mamy β = ( X, T, X ) - 1 X T r i e = ( I - H ) y , gdzie y ~ N ( X β , Ď 2 I ) . Oznacza to ( X T X ) - 1 X Tσ 2 I ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) tak, betae, i dlatego beta e t e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

Skutek jest taki, teraz wiemy, p j w razie potrzeby (w wszystkie powyższe założenia).

β^jσ^Sjtnp

C=(AB) be the (l+m)×k matrix formed by stacking A on top of B. Then

CZ=(AZBZ)N((AμBμ),CΣCT)
where
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZ is a multivariate Gaussian and it is a well-known result that two components of a multivariate Gaussian are independent if and only if they are uncorrelated, so the condition AΣBT=0 turns out to be exactly equivalent to the components AZ and BZ in CZ being uncorrelated.

jld
źródło
3
+1 always enjoy reading your answer.
Haitao Du
9

@Chaconne's answer is great. But here is a much shorter nonmathematical version!

Since the goal is to compute a P value, you first need to define a null hypothesis. Almost always, that is that the slope is actually horizontal so the numerical value for the slope (beta) is 0.0.

The slope fit from your data is not 0.0. Is that discrepancy due to random chance or due to the null hypothesis being wrong? You can't ever answer that for sure, but a P value is one way to sort-of-kind-of get at an answer.

The regression program reports a standard error of the slope. Compute the t ratio as the slope divided by its standard error. Actually, it is (slope minus null hypothesis slope) divided by the standard error, but the null hypothesis slope is nearly always zero.

Now you have a t ratio. The number of degrees of freedom (df) equals the number of data points minus the number of parameters fit by the regression (two for linear regression).

With those values (t and df) you can determine the P value with an online calculator or table.

It is essentially a one-sample t-test, comparing an observed computed value (the slope) with a hypothetical value (the null hypothesis).

Harvey Motulsky
źródło
4
The real question is why this is "essentially a one-sample t-test", and I don't see how it can become clear from your answer...
amoeba says Reinstate Monica