Mam dwie regresje tego samego Y i trzypoziomowego X. Ogólnie n = 15, przy n = 5 w każdej grupie lub na poziomie X. Pierwsza regresja traktuje X jako kategoryczny, przypisując zmienne wskaźnikowe do poziomów 2 i 3 z poziomem jeden jest odniesieniem. Wskaźniki / manekiny są takie: X1 = 1, jeśli poziom = 2, 0, jeśli inaczej X2 = 1, jeśli poziom = 3, 0, jeśli inaczej
W rezultacie mój dopasowany model wygląda mniej więcej tak: y = b0 + b1 (x1) + b2 (x2)
Uruchamiam regresję, a dane wyjściowe obejmują tę tabelę analizy wariancji:
Reszta danych wyjściowych nie ma tutaj znaczenia.
Okej, więc teraz przeprowadzam inną regresję dla tych samych danych. Porzucam analizę kategorialną i traktuję X jako ciągłą, ale dodam zmienną do równania: X ^ 2, kwadrat X. Więc teraz mam następujący model: y = b0 + b1 (X) + b2 (X) ^ 2
Jeśli go uruchomię, wypluje tę samą dokładną tabelę analizy wariancji, którą pokazałem ci powyżej. Dlaczego te dwie regresje powodują powstanie tych samych tabel?
[Podziękowania dla tej małej zagadki należą się Thomasowi Belinowi z Wydziału Biostatystyki na Uniwersytecie Kalifornijskim w Los Angeles.]
źródło
Odpowiedzi:
Pod względem matrycy twoje modele mają zwykłą formę .E[Y]=Xβ
Pierwszy model reprezentuje element pierwszej grupy według wiersza w , odpowiadający przecięciu, wskaźnikowi dla kategorii 2 i wskaźnikowi dla kategorii 3. Reprezentuje element drugiej grupy przez wiersz i element trzeciej grupy przez .(1,0,0) X (1,1,0) (1,0,1)
Drugi model używa zamiast tego wierszy , i .(1,1,12)=(1,1,1) (1,2,22)=(1,2,4) (1,3,32)=(1,3,9)
Nazwijmy wynikowe macierze modelu i . Są one po prostu powiązane: kolumny jednego są liniowymi kombinacjami kolumn drugiego. Na przykład pozwólX1 X2
A potem
wynika, że
Same modele są zatem powiązane przez
Oznacza to, że współczynniki dla drugiego modelu muszą być powiązane ze współczynnikami pierwszego przezβ2
Ta sama relacja obowiązuje zatem dla ich oszacowań metodą najmniejszych kwadratów. To pokazuje, że modele mają identyczne pasowania : po prostu wyrażają je inaczej.
Ponieważ pierwsze kolumny dwóch matryc modelowych są takie same, żadna tabela ANOVA, która rozkłada wariancję między pierwszą kolumną a pozostałymi kolumnami, nie ulegnie zmianie. Jednak tabela ANOVA, która rozróżnia drugą i trzecią kolumnę, będzie zależeć od sposobu kodowania danych.
Geometrycznie (i nieco bardziej abstrakcyjnie) trójwymiarowa podprzestrzeń wygenerowana przez kolumny pokrywa się z podprzestrzenią wygenerowaną przez kolumny . Dlatego modele będą miały identyczne pasowania. Pasowania są wyrażane inaczej, ponieważ przestrzenie są opisane za pomocą dwóch różnych zasad. X 1 X 2R15 X1 X2
Aby to zilustrować, oto dane podobne do twoich (ale z różnymi odpowiedziami) oraz odpowiednie analizy wygenerowane w
R
.Dopasuj dwa modele:
Wyświetl swoje tabele ANOVA:
Dane wyjściowe dla pierwszego modelu to
Tak jest w przypadku drugiego modelu
Widać, że pozostałe sumy kwadratów są takie same. Dodając pierwsze dwa wiersze w drugim modelu, otrzymasz ten sam DF i sumę kwadratów, z których można obliczyć ten sam średni kwadrat, wartość F i wartość p.
Na koniec porównajmy szacunkowe współczynniki.
Dane wyjściowe to
Nawet przechwyty są zupełnie inne. Jest tak, ponieważ oszacowania dowolnej zmiennej w regresji wielokrotnej zależą od oszacowań wszystkich innych zmiennych (chyba że wszystkie są wzajemnie ortogonalne, co nie ma miejsca w żadnym modelu). Spójrz jednak, jakie osiąga pomnożenie przez :V
Pasowania są naprawdę takie same, jak twierdzono.
źródło
W skrócie, oba modele są nasycone w tym sensie, że zapewniają unikalne empiryczne przewidywania odpowiedzi na wszystkich 3 poziomach X. Może być oczywiste, że kodowanie zmiennej czynnikowej w modelu 1. Dla trendu kwadratowego interesujące jest odnotowanie, że formuła kwadratowa może interpolować dowolne 3 punkty. Podczas gdy kontrasty są różne, w obu modelach globalny test na zerowy model tylko przechwytujący zapewnia identyczne wnioskowanie.
źródło