ANOVA a wielokrotna regresja liniowa? Dlaczego ANOVA jest tak często stosowana w badaniach eksperymentalnych?

24

ANOVA a wielokrotna regresja liniowa?

Rozumiem, że obie te metody wydają się wykorzystywać ten sam model statystyczny. Jednak w jakich okolicznościach powinienem skorzystać z której metody?

Jakie są zalety i wady tych metod w porównaniu?

Dlaczego ANOVA jest tak często stosowana w badaniach eksperymentalnych i rzadko znajduję badanie regresji?

florian
źródło
5
Ponieważ oba używają tego samego modelu, nie ma znaczenia, którego używasz.
Peter Flom - Przywróć Monikę
3
Nazywam to regresją, gdy porównuję nachylenia, tj. Zmienne predykcyjne ciągłe, i ANOVA, gdy porównuję średnie, tj. Zmienne predykcyjne jakościowe. Powodem, dla którego ANOVA częściej znajdujesz w badaniach eksperymentalnych, jest to, że w większości porównują one środki lub poziomy zabiegów, np. Porównując różne nawozy na wzrost roślin. Ale jak już powiedział @PeterFlom, oba używają tego samego modelu i nie ma znaczenia, którego używasz - jedyną rzeczą, która wygląda inaczej, jest wynik, jaki ci dają - i zależnie od pytania chcesz albo wynik „regresji”, albo Wyjście „ANOVA”.
Stefan
2
Hmm, ale możesz również uwzględnić predyktory jakościowe w regresji poprzez kodowanie pozorowane?
florian
Tak oczywiście!
Stefan
4
Twoje pytanie jest bardzo ważne i zostało poruszone wiele razy z różnych perspektyw na CV. Duplikat tych testów jest zagadkowy. Łatwo powiedzieć ANOVA = regresja liniowa i uważam, że wszystkie dotychczasowe komentarze są pomocne i trafne, ale rzeczywistość jest nieco bardziej szczegółowa i trudna do zrozumienia, szczególnie jeśli uwzględnisz ANCOVA pod parasolem analizy zmienność. Sprawdź inne wpisy, takie jak ten . Mam +1 od twojego pytania, choć jest to, ściśle mówiąc, duplikat. Czy możesz podać ex.?
Antoni Parellada,

Odpowiedzi:

22

Byłoby interesujące docenić, że rozbieżność dotyczy rodzaju zmiennych , a zwłaszcza rodzajów zmiennych objaśniających . W typowej ANOVA mamy zmienną kategorialną z różnymi grupami i próbujemy ustalić, czy pomiar zmiennej ciągłej różni się między grupami. Z drugiej strony OLS jest postrzegany przede wszystkim jako próba oceny związku między ciągłą regresją lub zmienną odpowiedzi a jednym lub wieloma regresorami lub zmiennymi objaśniającymi . W tym sensie regresję można postrzegać jako inną technikę, nadającą się do przewidywania wartości na podstawie linii regresji.

jednak różnica ta nie oznacza rozszerzenia ANOVA na resztę analizy zupy alfabetycznej wariancji (ANCOVA, MANOVA, MANCOVA); lub włączenie fałszywych zmiennych kodowanych do regresji OLS. Nie jestem pewien, co do konkretnych charakterystycznych punktów orientacyjnych, ale to tak, jakby obie techniki rozwinęły równoległe adaptacje w celu rozwiązania coraz bardziej złożonych modeli.

Na przykład widzimy, że różnice między ANCOVA a OLS ze zmiennymi fikcyjnymi (lub kategorycznymi) (w obu przypadkach z interakcjami) są co najwyżej kosmetyczne. Przepraszam za odejście od ograniczeń w tytule twojego pytania dotyczącego wielokrotnej regresji liniowej.

W obu przypadkach, model jest zasadniczo identyczne do tego, że w R funkcja służy do przeprowadzenia ANCOVA . Można go jednak przedstawić jako odmienny w odniesieniu do włączenia przecięcia odpowiadającego pierwszemu poziomowi (lub grupie) zmiennej czynnikowej (lub kategorialnej) w modelu regresji.lm

W modelu zrównoważonym (jednakowe rozmiary grupy, n 1 , 2 , i ) i tylko jedną zmienną towarzyszącą (aby uprościć prezentację macierzy), macierz modelową w ANCOVA można napotkać jako pewną odmianę:n1,2,i

X=[1n100xn10001n200xn20001n300xn3]

dla grup zmiennej czynnikowej wyrażonej jako macierze blokowe.3

Odpowiada to modelowi liniowemu:

z a i ekwiwalentem różnych średnich grup w modelu ANOVA, podczas gdy różne β są nachyleniami współzmiennej dla każdej z grup.

y=αja+β1xn1+β2)xn2)+β3)xn3)+ϵja
αjaβ

Prezentacja tego samego modelu w polu regresji, a konkretnie w R, uwzględnia ogólny punkt przecięcia, odpowiadający jednej z grup, a macierz modelu można przedstawić jako:

X=[00000jot3)n,11n2)0x0xn2)001n3)00xn3)]

równania OLS:

.

y=β0+μja+β1xn1+β2)xn2)+β3)xn3)+ϵja

β0μja

Jak widać z macierzy modelu, prezentacja przeczy prawdziwej tożsamości między regresją a analizą wariancji.

Lubię ten rodzaj zweryfikować z niektórych linii kodu i mojego ulubionego zestawu danych mtcarsw R . Korzystam lmz ANCOVA według artykułu Bena Bolkera dostępnego tutaj .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Jeśli chodzi o część pytania o to, jakiej metody użyć (regresja z R!), Możesz znaleźć zabawny komentarz on-line , na który natknąłem się podczas pisania tego postu.

Antoni Parellada
źródło
1
Dziękujemy za ten niezwykle pomocny komentarz ... Cytując z komentarza, który podłączyłeś: „Użyj regresji, jeśli nie jesteś pewien, czy niezależne zmienne kategorialne w ogóle mają jakikolwiek wpływ. Użyj ANOVA, jeśli chcesz zobaczyć, czy poszczególne kategorie mają różne skutki . ” Dlaczego więc wiele badań eksperymentalnych wykorzystuje ANOVA? Z mojego zrozumienia regresja byłaby właściwym wyborem. Czy badacze są zbyt przekonani, że efekty już istnieją, i szukają jedynie sposobów statystycznego „udowodnienia” ich?
florian
Czy możesz podać praktyczny przykład, w którym należy zastosować regresję aov zamiast regresji i wyjaśnić, dlaczego? Dzięki za poświęcony czas. Jestem również psychologiem z wykształcenia i nie dostrzegam zalet Anova, chyba że jest to prawdopodobnie łatwiejsze.
florian
Trochę szczęścia? Byłbym bardzo zainteresowany jakąkolwiek konkretną heurystą faworyzującą oba rodzaje procedur, więc proszę podziel się, jeśli znajdziesz odpowiedź.
Antoni Parellada,
Niestety, jak dotąd żadne nowe odkrycia w mojej podróży do Statystyki ... nie będą Cię informować, doceniamy więcej informacji.
florian
Mam trudności ze zrozumieniem macierzy modelu OLS i odpowiadającego jej równania. Nie rozumiem, skąd pochodzi kolumna zerowa (piąta kolumna macierzy). Myślę też, że równanie powinno odpowiadać kolumnom (tj. Mu_i powinno być tylko dla dwóch grup, a zmienna x powinna być uwzględniona bez interakcji z atrapą grupy). Dodatkowe wyjaśnienie jest bardzo mile widziane!
Nick
4

Regresja ANOVA i OLS są matematycznie identyczne w przypadkach, w których predyktory są kategoryczne (pod względem wniosków wyciąganych ze statystyki testowej). Innymi słowy, ANOVA jest szczególnym przypadkiem regresji. ANOVA nic nie może powiedzieć, że regresja nie może sama się wyprowadzić. Jednak nie jest odwrotnie. ANOVA nie może być stosowana do analizy zmiennych ciągłych. Jako taki, ANOVA można zaklasyfikować jako bardziej ograniczoną technikę. Regresja nie zawsze jest jednak przydatna dla mniej wyrafinowanego analityka. Na przykład większość skryptów ANOVA automatycznie generuje warunki interakcji, przy czym tak jak w przypadku regresji, często musisz samodzielnie obliczyć te warunki przy użyciu oprogramowania. Powszechne stosowanie ANOVA jest częściowo reliktem analizy statystycznej przed użyciem mocniejszego oprogramowania statystycznego, oraz, moim zdaniem, łatwiejszą techniką do nauczenia niedoświadczonych studentów, których celem jest zrozumienie na poziomie względnym, które umożliwi im analizę danych za pomocą podstawowego pakietu statystycznego. Wypróbuj go kiedyś ... Sprawdź statystykę t wyrzuconą przez regresję podstawową, wyprostuj ją, a następnie porównaj ze współczynnikiem F z ANOVA dla tych samych danych. Identyczny!

Michael Melville
źródło
To nie jest prawda.
Michael R. Chernick
4
@MichaelChernick Czy mógłbyś wyjaśnić, które z wielu twierdzeń zawartych w tej odpowiedzi uważasz za nieprawdziwe? Chociaż zajmuje kilka skrajnych pozycji, trudno jest znaleźć takie, które są fałszywe.
whuber
Sprzeciwiłem się stwierdzeniu, że regresja ANOVA i OLS są matematycznie identyczne. Rozumiem, że ANOVA można postrzegać jako regresję jako formę ogólnego modelu liniowego, który można sformułować jak regresję.
Michael R. Chernick,
W jaki sposób w przypadku OLS nie są one identyczne poza danymi wyjściowymi? Podstawowy model jest taki sam, reszty są takie same, wytwarzane przez nie wartości p są takie same. To wynik różni się.
dbwilson
2

Główną korzyścią ANOVA z regresji jest, moim zdaniem, wynik. Jeśli interesuje Cię znaczenie statystyczne zmiennej kategorialnej (współczynnika) jako bloku, wówczas ANOVA zapewnia ten test dla Ciebie. W przypadku regresji zmienna kategorialna jest reprezentowana przez 2 lub więcej zmiennych zastępczych, w zależności od liczby kategorii, a zatem masz 2 lub więcej testów statystycznych, z których każda porównuje średnią dla danej kategorii ze średnią kategorii zerowej (lub ogólna średnia, w zależności od fikcyjnej metody kodowania). Żadne z nich może nie być interesujące. Dlatego musisz wykonać analizę po oszacowaniu (zasadniczo ANOVA), aby uzyskać ogólny test interesującego Cię czynnika.

dbwilson
źródło
W rzeczywistości nie jest to prawdą. Jeśli wykonujesz test współczynnika wiarygodności, testujesz cały czynnik kategorialny jako blok w modelu regresji.
Dan Chaltiel
Twój komentarz nie jest sprzeczny z tym, co powiedziałem. Wspomniany test współczynnika prawdopodobieństwa byłby analizą po oszacowaniu współczynnika, porównując model ze współczynnikiem do modelu bez.
dbwilson
Jeśli wykonasz ANOVA, otrzymasz wartość dla „zmiennej kategorialnej (czynnika) jako bloku”, podobnie jak regresja z LRT. Regresja może zapewnić kilka wersji beta, ale nie wykonałaby więcej testów niż ANOVA, więc stwierdzenie „stąd masz 2 lub więcej testów statystycznych” wydaje mi się błędne. Dlaczego LRT byłoby bardziej „po oszacowaniu” niż ANOVA?
Dan Chaltiel
1

Główną zaletą regresji liniowej jest to, że jest odporna na naruszenie jednorodności wariancji, gdy wielkość próby w grupach jest nierówna. Innym jest to, że ułatwia włączenie kilku zmiennych towarzyszących (chociaż można to również łatwo osiągnąć za pomocą ANCOVA, jeśli chcesz uwzględnić tylko jedną zmienną towarzyszącą). Regresja stała się powszechna w latach siedemdziesiątych wraz z nadejściem postępu w dziedzinie mocy obliczeniowej. Regresja może być również wygodniejsza, jeśli jesteś szczególnie zainteresowany badaniem różnic między poszczególnymi poziomami zmiennej jakościowej, gdy występują więcej niż dwa poziomy (o ile skonfigurujesz zmienną fikcyjną w regresji, tak aby jeden z tych dwóch poziomów reprezentuje grupę odniesienia).

David B.
źródło
1
Jak wskazano w drugiej odpowiedzi, ANOVA jest regresją wielokrotną.
gung - Przywróć Monikę
Dziękuję, więc jakie są zalety Anova? Dlaczego miałbyś używać Anova / Ancova zamiast modelu regresji?
florian
Mam tutaj pytanie Dlaczego wskazałeś „tylko jedną zmienną towarzyszącą”, tłumacząc przydatność ANCOVA? Czy dlatego, że możesz zawrzeć tylko jedną zmienną towarzyszącą w ANCOVA?
Kevin Kang,