Dlaczego te tabele anova regresji są identyczne?

11

Mam dwie regresje tego samego Y i trzypoziomowego X. Ogólnie n = 15, przy n = 5 w każdej grupie lub na poziomie X. Pierwsza regresja traktuje X jako kategoryczny, przypisując zmienne wskaźnikowe do poziomów 2 i 3 z poziomem jeden jest odniesieniem. Wskaźniki / manekiny są takie: X1 = 1, jeśli poziom = 2, 0, jeśli inaczej X2 = 1, jeśli poziom = 3, 0, jeśli inaczej

W rezultacie mój dopasowany model wygląda mniej więcej tak: y = b0 + b1 (x1) + b2 (x2)

Uruchamiam regresję, a dane wyjściowe obejmują tę tabelę analizy wariancji:

stół

Reszta danych wyjściowych nie ma tutaj znaczenia.

Okej, więc teraz przeprowadzam inną regresję dla tych samych danych. Porzucam analizę kategorialną i traktuję X jako ciągłą, ale dodam zmienną do równania: X ^ 2, kwadrat X. Więc teraz mam następujący model: y = b0 + b1 (X) + b2 (X) ^ 2

Jeśli go uruchomię, wypluje tę samą dokładną tabelę analizy wariancji, którą pokazałem ci powyżej. Dlaczego te dwie regresje powodują powstanie tych samych tabel?

[Podziękowania dla tej małej zagadki należą się Thomasowi Belinowi z Wydziału Biostatystyki na Uniwersytecie Kalifornijskim w Los Angeles.]

logjammin
źródło
Myślę, że będziesz musiał pokazać nam kod, który „wykonuje regresję” i być może krok danych (wygląda mi na wyjście SAS), którego używasz do tworzenia tabel danych, na których operujesz.
Brad S.
1
@Brad Myślę, że nie jest to konieczne: sytuacja jest jasno opisana i nie potrzeba więcej informacji, aby wyjaśnić, co się dzieje.
whuber
@ whuber Może. Chyba tak mówisz, ale wydaje mi się, że to błąd programistyczny. Czekam na Twoją odpowiedź.
Brad S.
1
@Brad Błąd programistyczny: zamieściłem wyjaśnienie. To dobre pytanie, z prawdziwym zainteresowaniem statystycznym (i możliwością zastosowania).
whuber
Hej Brad, to właściwie z zestawu problemów - sytuacja została mi dana w ten sam sposób, w jaki wam ją przekazałem, a pytanie brzmiało podobnie: „dlaczego mieliby być tacy sami?”. Właśnie tak to rozłożyłem: dwa modele, te same tabele ANOVA, reszta danych wyjściowych nawet nie została podana (powinienem to wyjaśnić, zamiast mówić „nieistotne”).
logjammin

Odpowiedzi:

22

Pod względem matrycy twoje modele mają zwykłą formę . E[Y]=Xβ

Pierwszy model reprezentuje element pierwszej grupy według wiersza w , odpowiadający przecięciu, wskaźnikowi dla kategorii 2 i wskaźnikowi dla kategorii 3. Reprezentuje element drugiej grupy przez wiersz i element trzeciej grupy przez .(1,0,0)X(1,1,0)(1,0,1)

Drugi model używa zamiast tego wierszy , i .(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Nazwijmy wynikowe macierze modelu i . Są one po prostu powiązane: kolumny jednego są liniowymi kombinacjami kolumn drugiego. Na przykład pozwólX1X2

V=(111013028).

A potem

(100110101)V=(111124139),

wynika, że

X1V=X2.

Same modele są zatem powiązane przez

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

Oznacza to, że współczynniki dla drugiego modelu muszą być powiązane ze współczynnikami pierwszego przezβ2

β1=Vβ2.

Ta sama relacja obowiązuje zatem dla ich oszacowań metodą najmniejszych kwadratów. To pokazuje, że modele mają identyczne pasowania : po prostu wyrażają je inaczej.

Ponieważ pierwsze kolumny dwóch matryc modelowych są takie same, żadna tabela ANOVA, która rozkłada wariancję między pierwszą kolumną a pozostałymi kolumnami, nie ulegnie zmianie. Jednak tabela ANOVA, która rozróżnia drugą i trzecią kolumnę, będzie zależeć od sposobu kodowania danych.

Geometrycznie (i nieco bardziej abstrakcyjnie) trójwymiarowa podprzestrzeń wygenerowana przez kolumny pokrywa się z podprzestrzenią wygenerowaną przez kolumny . Dlatego modele będą miały identyczne pasowania. Pasowania są wyrażane inaczej, ponieważ przestrzenie są opisane za pomocą dwóch różnych zasad. X 1 X 2R15X1X2


Aby to zilustrować, oto dane podobne do twoich (ale z różnymi odpowiedziami) oraz odpowiednie analizy wygenerowane w R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Dopasuj dwa modele:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Wyświetl swoje tabele ANOVA:

anova(fit.1)
anova(fit.2)

Dane wyjściowe dla pierwszego modelu to

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Tak jest w przypadku drugiego modelu

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Widać, że pozostałe sumy kwadratów są takie same. Dodając pierwsze dwa wiersze w drugim modelu, otrzymasz ten sam DF i sumę kwadratów, z których można obliczyć ten sam średni kwadrat, wartość F i wartość p.

Na koniec porównajmy szacunkowe współczynniki.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Dane wyjściowe to

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Nawet przechwyty są zupełnie inne. Jest tak, ponieważ oszacowania dowolnej zmiennej w regresji wielokrotnej zależą od oszacowań wszystkich innych zmiennych (chyba że wszystkie są wzajemnie ortogonalne, co nie ma miejsca w żadnym modelu). Spójrz jednak, jakie osiąga pomnożenie przez :V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Pasowania są naprawdę takie same, jak twierdzono.

Whuber
źródło
6
Jasne pali, stary. Nigdy nie zastanawiałem się dłużej nad dokładną odpowiedzią na pytanie w Internecie. Dziękuję x1000, poważnie.
logjammin
Witamy na naszej stronie! Mam nadzieję, że nadal będziesz go używać i czekam na Twój wkład.
whuber
1
Nauczyłem się dziś czegoś! (przegłosowano)
Brad S.
Niesamowita odpowiedź. Umysł powalony!
kedarps,
5

W skrócie, oba modele są nasycone w tym sensie, że zapewniają unikalne empiryczne przewidywania odpowiedzi na wszystkich 3 poziomach X. Może być oczywiste, że kodowanie zmiennej czynnikowej w modelu 1. Dla trendu kwadratowego interesujące jest odnotowanie, że formuła kwadratowa może interpolować dowolne 3 punkty. Podczas gdy kontrasty są różne, w obu modelach globalny test na zerowy model tylko przechwytujący zapewnia identyczne wnioskowanie.

AdamO
źródło