W jaki sposób regresja, test t i ANOVA są wszystkimi wersjami ogólnego modelu liniowego?

Odpowiedzi:

47

Rozważ, że wszystkie można zapisać jako równanie regresji (być może z nieco innymi interpretacjami niż ich tradycyjne formy).

Regresja:

Y=β0+β1X(ciągły)+εgdzie εN.(0,σ2))

test t:

Y=β0+β1X(kod fikcyjny)+εgdzie εN.(0,σ2))

ANOVA:

Y=β0+β1X(kod fikcyjny)+εgdzie εN.(0,σ2))

Prototypowa regresja jest konceptualizowana za pomocą jako zmiennej ciągłej. Jednak jedynym założeniem, które jest faktycznie zrobione na temat X, jest to, że jest to wektor znanych stałych. Może to być zmienna ciągła, ale może to być również fikcyjny kod (tj. Wektor 0 i 1 , który wskazuje, czy obserwacja należy do wskazanej grupy - np. Grupy leczonej). Zatem w drugim równaniu X może być takim fałszywym kodem, a wartość p byłaby taka sama jak w teście t w jego bardziej tradycyjnej postaci. XX01X

Znaczenie bet będzie tu jednak różne. W tym przypadku, byłaby średnia w grupie kontrolnej (w której pozycje w zmiennej obojętne byłoby 0 „S) i p 1 odpowiada różnicy pomiędzy średnią z grupy leczonej oraz średnią kontrolą Grupa. β00β1

Teraz pamiętaj, że całkowicie uzasadnione jest posiadanie / uruchamianie ANOVA tylko z dwiema grupami (chociaż test t byłby bardziej powszechny) i wszystkie trzy są połączone. Jeśli wolisz zobaczyć, jak by to działało, gdybyś miał ANOVA z 3 grupami; byłoby to: Zauważ, że kiedy maszgrupy g , masz g - 1 kody zastępcze, które je reprezentują. W grupie odniesienia (zwykle grupa kontrolna) jest wskazane poprzez 0 „swszystkichkodów manekina (w tym przypadku zarówno obojętne kodu 1 i obojętne numer 2). W tym przypadku nie chcesz interpretować wartości p dla testów beta dla tych bet, które mają standardowe wyniki statystyczne - wskazują one tylko, czy wskazana grupa różni się od grupy kontrolnej,gdy jest oceniana w izolacji

Y=β0+β1X(kod fikcyjny 1)+β2)X(kod fikcyjny 2)+εgdzie εN.(0,σ2))
solsol-10. Oznacza to, że testy te nie są niezależne. Zamiast tego chciałbyś ocenić, czy średnie dla grupy różnią się, konstruując tabelę ANOVA i przeprowadzając test F. Dla tego, co jest warte, beta interpretuje się tak samo, jak w opisanej powyżej wersji testu t: jest średnią grupy kontrolnej / referencyjnej, β 1 wskazuje różnicę między średnimi grupy 1 a grupą referencyjną, a β 2 wskazuje różnicę między grupą 2 a grupą odniesienia. β0β1β2)

W świetle poniższych komentarzy @ Whubera można je również przedstawić za pomocą równań macierzowych:
Reprezentowane w ten sposób, Y i ε są wektorami o długości N , a β jest wektorem o długości p + 1 . X jest teraz macierzą z N rzędami i ( p + 1 ) kolumnami. W prototypowego regresji masz p ciągła X zmienne i wyraz wolny. Zatem twój X

Y=Xβ+ε
YεN.βp+1XN.(p+1)pXXmacierz składa się z szeregu wektorów kolumnowych, po jednym dla każdej zmiennej , z kolumną 1 po lewej stronie dla przecięcia. X1

Jeśli reprezentujesz w ten sposób ANOVA z grupami , pamiętaj, że miałbyś zmienne fikcyjne g - 1 wskazujące grupy, z grupą odniesienia wskazaną przez obserwację mającą 0 w każdej zmiennej fikcyjnej. Jak wyżej, nadal będziesz mieć przechwytywanie. Zatem p = g - 1 . solsol-10p=sol-1

gung - Przywróć Monikę
źródło
1
Równanie ANOVA miałoby sens jako ANOVA (a nie test t) tylko wtedy, gdy był interpretowany jako wektor i mnożony po prawej stronie. β1
whuber
To nie są równania macierzowe; Rzadko używam ich tutaj, ponieważ wiele osób ich nie czyta. Pierwsza ANOVA reprezentuje identyczną sytuację jak poprzedni test t. Zwracam tylko uwagę, że jeśli możesz przeprowadzić niezależny test t dla 2 próbek, możesz uruchomić te same dane, co ANOVA (które wiele osób powinno rozpoznać / zapamiętać na podstawie klasy statystyk 101). Dodam kolejną wersję ANOVA z 3 grupami niżej, aby wyjaśnić, że sytuacja dwóch grup nie jest jedynym przypadkiem ANOVA, który można rozumieć jako regresję; ale równanie reg wygląda teraz inaczej - starałem się zachować wyraźniejszą równoległość powyżej.
gung - Przywróć Monikę
Chodzi mi o to, że jeśli nie uczynisz go równaniem macierzowym, twoja charakterystyka ANOVA jest zbyt ograniczona, aby była użyteczna: jest identyczna z twoją charakterystyką testu t, a więc jest bardziej myląca niż pomocna. Kiedy zaczynasz wprowadzać więcej grup, nagle zmieniasz równanie, które również może być mniej niż jasne. To, czy chcesz używać notacji macierzowej, zależy oczywiście od Ciebie, ale w celu dobrej komunikacji powinieneś dążyć do spójności.
whuber
Czy mógłbyś wyjaśnić nieco więcej na temat tego, jak przechodzisz od popularnej definicji testu t do pokazanego równania. Zasadniczo nie mogę zrozumieć, co tu jest Y (może to być naiwność lub niższe iloraz inteligencji dla statystyk). Jednak jak dojść z t = (yx-u0) / s do tego równania.
Gaurav Singhal
Nie robi tego, chociaż może ci to nie być znane. jest ciągła (i przyjęta warunkowo normalnie) we wszystkich wymienionych przypadkach. Nie ma żadnych założeń dystrybucyjnych dotyczących X , może być ciągła, dychotomiczna lub wielopoziomowa zmienna kategorialna. YX
gung - Przywróć Monikę
16

Wszystkie można zapisać jako szczególne przypadki ogólnego modelu liniowego.

Test t jest przypadkiem ANOVA dla dwóch próbek. Jeśli wyrównasz statystyki testu t, uzyskasz odpowiadające w ANOVA.fa

Model ANOVA jest w zasadzie tylko modelem regresji, w którym poziomy czynników są reprezentowane przez zmienne fikcyjne (lub wskaźnikowe ) .

Y


t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Zwróć uwagę na wartość p 0,079 powyżej. Oto anova w jedną stronę:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Teraz regresja:

> summary(lm(extra ~ group, data = sleep))

(niektóre dane wyjściowe usunięte)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Porównaj wartość p w wierszu „grupa 2”, a także wartość p dla testu F w ostatnim wierszu. W przypadku testu dwustronnego są one takie same i oba odpowiadają wynikowi testu t.

Ponadto współczynnik dla „grupy 2” reprezentuje różnicę średnich dla dwóch grup.

Glen_b
źródło
Posiadanie tych samych wartości p we wszystkich 3 scenariuszach jest magiczne i imponujące, jednak gdybyś mógł wyjaśnić nieco więcej, w jaki sposób te wartości p są obliczane, zdecydowanie uczyniłoby to odpowiedź bardziej interesującą . Nie wiem, czy pokazanie obliczeń wartości p sprawi, że będzie to również bardziej przydatne , więc o tym możesz zdecydować.
Gaurav Singhal
@Gaurav Wartości p są takie same, ponieważ testujesz tę samą hipotezę na tym samym modelu, tylko nieco inaczej przedstawioną. Jeśli interesuje Cię sposób obliczania określonej wartości p, byłoby to nowe pytanie (tutaj nie byłoby odpowiedzi na pytanie). Możesz zadać takie pytanie, ale najpierw spróbuj wyszukać, ponieważ może ono już być udzielone.
Glen_b
Dzięki @Glen_b, przepraszam, że zadałem oczywiste pytanie i to też nie w najlepszy sposób. Nadal odpowiedziałeś na moje pytanie - „ta sama hipoteza na tym samym modelu (i / lub danych)”. Nie zastanawiałem się nad tym, jak testują tę samą hipotezę. Dzięki
Gaurav Singhal,
2

Ta odpowiedź , którą zamieściłem wcześniej, jest dość trafna, ale to pytanie jest nieco inne.

Możesz pomyśleć o różnicach i podobieństwach między następującymi modelami liniowymi:

[Y1Yn]=[1x11x2)1x3)1xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]
Michael Hardy
źródło
2
Niektóre opisy i komentarze do pytań byłyby przydatne dla czytelników, ponieważ teraz muszą zgadnąć, skąd pochodzą i jak odnoszą się do pytania ...
Tim
0

Anova jest podobna do testu t dla równości średnich przy założeniu nieznanych, ale równych wariancji między zabiegami. Wynika to z faktu, że w analizie ANOVA MSE jest identyczna z wariancją z puli stosowaną w teście t. Istnieją inne wersje testu t, takie jak test na nierównomierne wariancje i test t dla par. Z tego widoku test t może być bardziej elastyczny.

pemfir
źródło