W jaki sposób regresja, test t i ANOVA są wszystkimi wersjami ogólnego modelu liniowego?

49

Jak wyglądają wszystkie wersje tej samej podstawowej metody statystycznej?

regression self-study anova generalized-linear-model t-test Amahabirsingh
źródło

powiązane: Dlaczego uczy się / stosuje ANOVA tak, jakby była inną metodologią badawczą niż regresja liniowa?

Haitao Du

powiązane: R: Anova i regresja liniowa

Haitao Du

powiązane: Dlaczego ANOVA jest równoważna regresji liniowej?

Haitao Du

47

Rozważ, że wszystkie można zapisać jako równanie regresji (być może z nieco innymi interpretacjami niż ich tradycyjne formy).

Regresja:

Y = β_{0} + β_{1} X_{(ciągły)} + ε gdzie ε \sim N. (0, σ^{2)})

$Y=\beta_0 + \beta_1X_{\text{(continuous)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

test t:

Y = β_{0} + β_{1} X_{(kod fikcyjny)} + ε gdzie ε \sim N. (0, σ^{2)})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

ANOVA:

Y = β_{0} + β_{1} X_{(kod fikcyjny)} + ε gdzie ε \sim N. (0, σ^{2)})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

Prototypowa regresja jest konceptualizowana za pomocą jako zmiennej ciągłej. Jednak jedynym założeniem, które jest faktycznie zrobione na temat jest to, że jest to wektor znanych stałych. Może to być zmienna ciągła, ale może to być również fikcyjny kod (tj. Wektor i , który wskazuje, czy obserwacja należy do wskazanej grupy - np. Grupy leczonej). Zatem w drugim równaniu może być takim fałszywym kodem, a wartość p byłaby taka sama jak w teście t w jego bardziej tradycyjnej postaci. $X$ $X$ $0$ $1$ $X$

Znaczenie bet będzie tu jednak różne. W tym przypadku, byłaby średnia w grupie kontrolnej (w której pozycje w zmiennej obojętne byłoby „S) i odpowiada różnicy pomiędzy średnią z grupy leczonej oraz średnią kontrolą Grupa. $\beta_0$ $0$ $\beta_1$

Teraz pamiętaj, że całkowicie uzasadnione jest posiadanie / uruchamianie ANOVA tylko z dwiema grupami (chociaż test t byłby bardziej powszechny) i wszystkie trzy są połączone. Jeśli wolisz zobaczyć, jak by to działało, gdybyś miał ANOVA z 3 grupami; byłoby to: Zauważ, że kiedy maszgrupy , masz kody zastępcze, które je reprezentują. W grupie odniesienia (zwykle grupa kontrolna) jest wskazane poprzez „swszystkichkodów manekina (w tym przypadku zarówno obojętne kodu 1 i obojętne numer 2). W tym przypadku nie chcesz interpretować wartości p dla testów beta dla tych bet, które mają standardowe wyniki statystyczne - wskazują one tylko, czy wskazana grupa różni się od grupy kontrolnej,gdy jest oceniana w izolacji

Y = β_{0} + β_{1} X_{(kod fikcyjny 1)} + β_{2)} X_{(kod fikcyjny 2)} + ε gdzie ε \sim N. (0, σ^{2)})

$Y=\beta_0 + \beta_1X_{\text{(dummy code 1)}} + \beta_2X_{\text{(dummy code 2)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

g

$g$

g - 1

$g-1$

0

$0$ . Oznacza to, że testy te nie są niezależne. Zamiast tego chciałbyś ocenić, czy średnie dla grupy różnią się, konstruując tabelę ANOVA i przeprowadzając test F. Dla tego, co jest warte, beta interpretuje się tak samo, jak w opisanej powyżej wersji testu t:

jest średnią grupy kontrolnej / referencyjnej,

wskazuje różnicę między średnimi grupy 1 a grupą referencyjną, a

wskazuje różnicę między grupą 2 a grupą odniesienia.

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

W świetle poniższych komentarzy @ Whubera można je również przedstawić za pomocą równań macierzowych:
Reprezentowane w ten sposób, i są wektorami o długości , a jest wektorem o długości . jest teraz macierzą z rzędami i kolumnami. W prototypowego regresji masz ciągła zmienne i wyraz wolny. Zatem twój

Y = X β + ε

$\bf Y=\bf X\boldsymbol\beta + \boldsymbol\varepsilon$

Y

$\bf Y$

ε

$\boldsymbol\varepsilon$

N

$N$

β

$\boldsymbol\beta$

p + 1

$p+1$

X

$\bf X$

N

$N$

(p + 1)

$(p+1)$

p

$p$

X

$X$

X

$\bf X$ macierz składa się z szeregu wektorów kolumnowych, po jednym dla każdej zmiennej

, z kolumną

po lewej stronie dla przecięcia.

X

$X$

1

$1$

Jeśli reprezentujesz w ten sposób ANOVA z grupami , pamiętaj, że miałbyś zmienne fikcyjne wskazujące grupy, z grupą odniesienia wskazaną przez obserwację mającą w każdej zmiennej fikcyjnej. Jak wyżej, nadal będziesz mieć przechwytywanie. Zatem . $g$ $g-1$ $0$ $p=g-1$

gung - Przywróć Monikę
źródło

1

Równanie ANOVA miałoby sens jako ANOVA (a nie test t) tylko wtedy, gdy

był interpretowany jako wektor i mnożony po prawej stronie.

β_{1}

$\beta_1$

whuber

To nie są równania macierzowe; Rzadko używam ich tutaj, ponieważ wiele osób ich nie czyta. Pierwsza ANOVA reprezentuje identyczną sytuację jak poprzedni test t. Zwracam tylko uwagę, że jeśli możesz przeprowadzić niezależny test t dla 2 próbek, możesz uruchomić te same dane, co ANOVA (które wiele osób powinno rozpoznać / zapamiętać na podstawie klasy statystyk 101). Dodam kolejną wersję ANOVA z 3 grupami niżej, aby wyjaśnić, że sytuacja dwóch grup nie jest jedynym przypadkiem ANOVA, który można rozumieć jako regresję; ale równanie reg wygląda teraz inaczej - starałem się zachować wyraźniejszą równoległość powyżej.

gung - Przywróć Monikę

Chodzi mi o to, że jeśli nie uczynisz go równaniem macierzowym, twoja charakterystyka ANOVA jest zbyt ograniczona, aby była użyteczna: jest identyczna z twoją charakterystyką testu t, a więc jest bardziej myląca niż pomocna. Kiedy zaczynasz wprowadzać więcej grup, nagle zmieniasz równanie, które również może być mniej niż jasne. To, czy chcesz używać notacji macierzowej, zależy oczywiście od Ciebie, ale w celu dobrej komunikacji powinieneś dążyć do spójności.

whuber

Czy mógłbyś wyjaśnić nieco więcej na temat tego, jak przechodzisz od popularnej definicji testu t do pokazanego równania. Zasadniczo nie mogę zrozumieć, co tu jest Y (może to być naiwność lub niższe iloraz inteligencji dla statystyk). Jednak jak dojść z t = (yx-u0) / s do tego równania.

Gaurav Singhal

Nie robi tego, chociaż może ci to nie być znane.

jest ciągła (i przyjęta warunkowo normalnie) we wszystkich wymienionych przypadkach. Nie ma żadnych założeń dystrybucyjnych dotyczących

, może być ciągła, dychotomiczna lub wielopoziomowa zmienna kategorialna.

Y

$Y$

X

$X$

gung - Przywróć Monikę

16

Wszystkie można zapisać jako szczególne przypadki ogólnego modelu liniowego.

Test t jest przypadkiem ANOVA dla dwóch próbek. Jeśli wyrównasz statystyki testu t, uzyskasz odpowiadające w ANOVA. $F$

Model ANOVA jest w zasadzie tylko modelem regresji, w którym poziomy czynników są reprezentowane przez zmienne fikcyjne (lub wskaźnikowe ) .

$Y$

$t$

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33

Zwróć uwagę na wartość p 0,079 powyżej. Oto anova w jedną stronę:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605

Teraz regresja:

> summary(lm(extra ~ group, data = sleep))

(niektóre dane wyjściowe usunięte)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Porównaj wartość p w wierszu „grupa 2”, a także wartość p dla testu F w ostatnim wierszu. W przypadku testu dwustronnego są one takie same i oba odpowiadają wynikowi testu t.

Ponadto współczynnik dla „grupy 2” reprezentuje różnicę średnich dla dwóch grup.

Glen_b
źródło

Posiadanie tych samych wartości p we wszystkich 3 scenariuszach jest magiczne i imponujące, jednak gdybyś mógł wyjaśnić nieco więcej, w jaki sposób te wartości p są obliczane, zdecydowanie uczyniłoby to odpowiedź bardziej interesującą . Nie wiem, czy pokazanie obliczeń wartości p sprawi, że będzie to również bardziej przydatne , więc o tym możesz zdecydować.

Gaurav Singhal

@Gaurav Wartości p są takie same, ponieważ testujesz tę samą hipotezę na tym samym modelu, tylko nieco inaczej przedstawioną. Jeśli interesuje Cię sposób obliczania określonej wartości p, byłoby to nowe pytanie (tutaj nie byłoby odpowiedzi na pytanie). Możesz zadać takie pytanie, ale najpierw spróbuj wyszukać, ponieważ może ono już być udzielone.

Glen_b

Dzięki @Glen_b, przepraszam, że zadałem oczywiste pytanie i to też nie w najlepszy sposób. Nadal odpowiedziałeś na moje pytanie - „ta sama hipoteza na tym samym modelu (i / lub danych)”. Nie zastanawiałem się nad tym, jak testują tę samą hipotezę. Dzięki

Gaurav Singhal,

2

Ta odpowiedź , którą zamieściłem wcześniej, jest dość trafna, ale to pytanie jest nieco inne.

Możesz pomyśleć o różnicach i podobieństwach między następującymi modelami liniowymi:

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & x_{1} \\ 1 & x_{2)} \\ 1 & x_{3)} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{matrix}] [\begin{matrix} α_{0} \\ α_{1} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ 1 & x_3 \\ \vdots & \vdots \\ 1 & x_n \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \alpha_1 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 1 & 0 & \dots & 0 \\ 0 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ \\ ⋮ & ⋮ \end{matrix}] [\begin{matrix} α_{0} \\ ⋮ \\ α_{k} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & 0 & 0 & \cdots & 0 \\ \hline 0 & 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 1 & 0 & \cdots & 0 \\ \hline 0 & 0 & 1 & \cdots & 0 \\ \vdots & & & & \vdots \\ \vdots & & & & \vdots \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \vdots \\ \alpha_k \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

Michael Hardy
źródło

2

Niektóre opisy i komentarze do pytań byłyby przydatne dla czytelników, ponieważ teraz muszą zgadnąć, skąd pochodzą i jak odnoszą się do pytania ...

Tim

0

Anova jest podobna do testu t dla równości średnich przy założeniu nieznanych, ale równych wariancji między zabiegami. Wynika to z faktu, że w analizie ANOVA MSE jest identyczna z wariancją z puli stosowaną w teście t. Istnieją inne wersje testu t, takie jak test na nierównomierne wariancje i test t dla par. Z tego widoku test t może być bardziej elastyczny.

pemfir
źródło

W jaki sposób regresja, test t i ANOVA są wszystkimi wersjami ogólnego modelu liniowego?

Odpowiedzi: