ANOVA a wielokrotna regresja liniowa?
Rozumiem, że obie te metody wydają się wykorzystywać ten sam model statystyczny. Jednak w jakich okolicznościach powinienem skorzystać z której metody?
Jakie są zalety i wady tych metod w porównaniu?
Dlaczego ANOVA jest tak często stosowana w badaniach eksperymentalnych i rzadko znajduję badanie regresji?
anova
multiple-regression
least-squares
florian
źródło
źródło
Odpowiedzi:
Byłoby interesujące docenić, że rozbieżność dotyczy rodzaju zmiennych , a zwłaszcza rodzajów zmiennych objaśniających . W typowej ANOVA mamy zmienną kategorialną z różnymi grupami i próbujemy ustalić, czy pomiar zmiennej ciągłej różni się między grupami. Z drugiej strony OLS jest postrzegany przede wszystkim jako próba oceny związku między ciągłą regresją lub zmienną odpowiedzi a jednym lub wieloma regresorami lub zmiennymi objaśniającymi . W tym sensie regresję można postrzegać jako inną technikę, nadającą się do przewidywania wartości na podstawie linii regresji.
jednak różnica ta nie oznacza rozszerzenia ANOVA na resztę analizy zupy alfabetycznej wariancji (ANCOVA, MANOVA, MANCOVA); lub włączenie fałszywych zmiennych kodowanych do regresji OLS. Nie jestem pewien, co do konkretnych charakterystycznych punktów orientacyjnych, ale to tak, jakby obie techniki rozwinęły równoległe adaptacje w celu rozwiązania coraz bardziej złożonych modeli.
Na przykład widzimy, że różnice między ANCOVA a OLS ze zmiennymi fikcyjnymi (lub kategorycznymi) (w obu przypadkach z interakcjami) są co najwyżej kosmetyczne. Przepraszam za odejście od ograniczeń w tytule twojego pytania dotyczącego wielokrotnej regresji liniowej.
W obu przypadkach, model jest zasadniczo identyczne do tego, że w R funkcja służy do przeprowadzenia ANCOVA . Można go jednak przedstawić jako odmienny w odniesieniu do włączenia przecięcia odpowiadającego pierwszemu poziomowi (lub grupie) zmiennej czynnikowej (lub kategorialnej) w modelu regresji.
lm
W modelu zrównoważonym (jednakowe rozmiary grupy, n 1 , 2 , ⋯i ) i tylko jedną zmienną towarzyszącą (aby uprościć prezentację macierzy), macierz modelową w ANCOVA można napotkać jako pewną odmianę:n1,2,⋯i
dla grup zmiennej czynnikowej wyrażonej jako macierze blokowe.3
Odpowiada to modelowi liniowemu:
z a i ekwiwalentem różnych średnich grup w modelu ANOVA, podczas gdy różne β są nachyleniami współzmiennej dla każdej z grup.
Prezentacja tego samego modelu w polu regresji, a konkretnie w R, uwzględnia ogólny punkt przecięcia, odpowiadający jednej z grup, a macierz modelu można przedstawić jako:
równania OLS:
.
Jak widać z macierzy modelu, prezentacja przeczy prawdziwej tożsamości między regresją a analizą wariancji.
Lubię ten rodzaj zweryfikować z niektórych linii kodu i mojego ulubionego zestawu danych
mtcars
w R . Korzystamlm
z ANCOVA według artykułu Bena Bolkera dostępnego tutaj .Jeśli chodzi o część pytania o to, jakiej metody użyć (regresja z R!), Możesz znaleźć zabawny komentarz on-line , na który natknąłem się podczas pisania tego postu.
źródło
Regresja ANOVA i OLS są matematycznie identyczne w przypadkach, w których predyktory są kategoryczne (pod względem wniosków wyciąganych ze statystyki testowej). Innymi słowy, ANOVA jest szczególnym przypadkiem regresji. ANOVA nic nie może powiedzieć, że regresja nie może sama się wyprowadzić. Jednak nie jest odwrotnie. ANOVA nie może być stosowana do analizy zmiennych ciągłych. Jako taki, ANOVA można zaklasyfikować jako bardziej ograniczoną technikę. Regresja nie zawsze jest jednak przydatna dla mniej wyrafinowanego analityka. Na przykład większość skryptów ANOVA automatycznie generuje warunki interakcji, przy czym tak jak w przypadku regresji, często musisz samodzielnie obliczyć te warunki przy użyciu oprogramowania. Powszechne stosowanie ANOVA jest częściowo reliktem analizy statystycznej przed użyciem mocniejszego oprogramowania statystycznego, oraz, moim zdaniem, łatwiejszą techniką do nauczenia niedoświadczonych studentów, których celem jest zrozumienie na poziomie względnym, które umożliwi im analizę danych za pomocą podstawowego pakietu statystycznego. Wypróbuj go kiedyś ... Sprawdź statystykę t wyrzuconą przez regresję podstawową, wyprostuj ją, a następnie porównaj ze współczynnikiem F z ANOVA dla tych samych danych. Identyczny!
źródło
Główną korzyścią ANOVA z regresji jest, moim zdaniem, wynik. Jeśli interesuje Cię znaczenie statystyczne zmiennej kategorialnej (współczynnika) jako bloku, wówczas ANOVA zapewnia ten test dla Ciebie. W przypadku regresji zmienna kategorialna jest reprezentowana przez 2 lub więcej zmiennych zastępczych, w zależności od liczby kategorii, a zatem masz 2 lub więcej testów statystycznych, z których każda porównuje średnią dla danej kategorii ze średnią kategorii zerowej (lub ogólna średnia, w zależności od fikcyjnej metody kodowania). Żadne z nich może nie być interesujące. Dlatego musisz wykonać analizę po oszacowaniu (zasadniczo ANOVA), aby uzyskać ogólny test interesującego Cię czynnika.
źródło
Główną zaletą regresji liniowej jest to, że jest odporna na naruszenie jednorodności wariancji, gdy wielkość próby w grupach jest nierówna. Innym jest to, że ułatwia włączenie kilku zmiennych towarzyszących (chociaż można to również łatwo osiągnąć za pomocą ANCOVA, jeśli chcesz uwzględnić tylko jedną zmienną towarzyszącą). Regresja stała się powszechna w latach siedemdziesiątych wraz z nadejściem postępu w dziedzinie mocy obliczeniowej. Regresja może być również wygodniejsza, jeśli jesteś szczególnie zainteresowany badaniem różnic między poszczególnymi poziomami zmiennej jakościowej, gdy występują więcej niż dwa poziomy (o ile skonfigurujesz zmienną fikcyjną w regresji, tak aby jeden z tych dwóch poziomów reprezentuje grupę odniesienia).
źródło