Regresja vs. rozbieżność ANOVA (aov vs lm w R)

21

Zawsze miałem wrażenie, że regresja jest po prostu bardziej ogólną formą ANOVA i że wyniki będą identyczne. Ostatnio jednak uruchomiłem zarówno regresję, jak i ANOVA dla tych samych danych, a wyniki różnią się znacznie. Oznacza to, że w modelu regresji zarówno główne efekty, jak i interakcja są znaczące, podczas gdy w ANOVA jeden główny efekt nie jest znaczący. Oczekuję, że ma to coś wspólnego z interakcją, ale nie jest dla mnie jasne, co różni się w tych dwóch sposobach modelowania tego samego pytania. Jeśli jest to ważne, jeden predyktor jest kategoryczny, a drugi ciągły, jak pokazano w poniższej symulacji.

Oto przykład tego, jak wyglądają moje dane i jakie analizy przeprowadzam, ale bez tych samych wartości p lub efektów, które są znaczące w wynikach (moje rzeczywiste wyniki są przedstawione powyżej):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
Rebecca
źródło
Podsumowanie (lm ()) podaje współczynniki dla określonych kontrastów, które są kontrastami leczenia przy braku specyfikacji tutaj. Podczas gdy podsumowanie (aov ()) daje ci tabelę anova. Jeśli chcesz anova dla modelu lm, potrzebujesz anova (lm ())
Matt Albrecht
groupjest wektorem numerycznym, czy jest to celowe? Zwykle czynniki grupujące powinny mieć klasę factor, tak aby transformacja do kontrastów mogła być obsługiwana automatycznie przez funkcje takie jak lm(). Stanie się to widoczne, gdy będziesz mieć więcej niż dwie grupy lub zastosujesz kodowanie inne niż 0/1 dla groupzmiennej.
caracal,
Zobacz także stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Odpowiedzi:

17

summaryFunkcja wywołuje różne sposoby w zależności od klasy obiektu. Różnica nie polega na aovkontra lm, ale na informacjach prezentowanych na temat modeli. Na przykład, jeśli użyłeś anova(mod1)i anova(mod2)zamiast tego, powinieneś uzyskać te same wyniki.

Jak mówi @Glen, kluczem jest to, czy raportowane testy są oparte na sumach kwadratów typu 1 lub typu 3. Różnią się one, gdy korelacja między zmiennymi objaśniającymi nie jest dokładnie równa 0. Kiedy są one skorelowane, niektóre SS są unikalne dla jednego predyktora, a inne dla drugiego, ale niektóre SS można przypisać do jednego lub obu. ( Możesz to sobie wyobrazić wyobrażając sobie symbol MasterCard- w środku znajduje się niewielki obszar nakładania się.) Nie ma jednoznacznej odpowiedzi w tej sytuacji i niestety jest to norma dla danych nie eksperymentalnych. Jedno podejście polega na tym, że analityk wykorzysta swoją ocenę i przypisze nakładające się SS do jednej ze zmiennych. Ta zmienna wchodzi najpierw do modelu. Druga zmienna przechodzi do drugiego modelu i otrzymuje SS, które wygląda jak ciasteczko z usuniętym z niego ugryzieniem. Jego działanie można sprawdzić za pomocą czegoś, co czasami nazywa sięR2)zmień lub F. zmień. Podejście to wykorzystuje SS typu 1. Alternatywnie, możesz to zrobić dwa razy przy każdym wejściu i zgłosić test zmiany F dla obu predyktorów. W ten sposób żadna zmienna nie otrzymuje SS z powodu nakładania się. Podejście to wykorzystuje SS typu 3. (Powinienem również powiedzieć, że to drugie podejście jest traktowane z lekceważeniem).

Zgodnie z sugestią @BrettMagill w komentarzu poniżej, mogę spróbować to trochę wyjaśnić. (Zauważ, że w moim przykładzie używam tylko 2 predyktorów i żadnych interakcji, ale ten pomysł można rozszerzyć, aby uwzględnić to, co chcesz.)

Typ 1: SS (A) i SS (B | A)

Typ 3: SS (A | B) i SS (B | A)

gung - Przywróć Monikę
źródło
1
To jest ładny opis problemu. Możesz nieco wyjaśnić tekst w ten sposób: Typ I: SS_A = SS (A) SS_B = SS (B | A) i SS_AB = SS (AB | B, A) Typ III: SS_A = SS (A | B, AB ) i SS_B = SS (B | A, AB) i SS_AB = SS (AB | A, B)
Brett
1
Dziękuję bardzo za Twoją pomoc. Rozumiem teraz, co się dzieje pod względem różnic między tymi modelami, ale wciąż nie jestem pewien, kiedy należałoby zastosować model anowy lub regresyjny. Mój doradca doradza anova, ale zawsze uczono mnie używania regresji i nie jestem pewien, który z nich jest bardziej odpowiedni, gdy wyniki są rozbieżne. Czy masz jakieś przykłady lub zasoby, które doradzą, kiedy któreś z nich będzie odpowiednie? Jeszcze raz dziękuję za pomoc.
Rebecca
1
Przepraszam, nie do końca podążam. Chodzi mi o to, że modele tak naprawdę się nie różnią. ANOVA jest regresją ze wszystkimi jakościowymi predyktorami. Jeśli masz model regresji z predyktorami ciągłymi i jakościowymi i najpierw wprowadzasz predyktor ciągły, to predyktory jakościowe (ale bez terminu interakcji) to ANCOVA. Każde z tych podejść jest w porządku, ponieważ „za kulisami” są identyczne. Zwykle koduję to jako regresję, ale to kwestia stylu. OTOH, jeśli twój doradca chce, aby działał w stylu ANOVA, to idź tą drogą, ponieważ nie ma różnicy.
gung - Przywróć Monikę
2
Kilka rzeczy: (3 w górę) interakcja nie oznacza, że ​​twoje niezależne zmienne są skorelowane, są to po prostu różne rzeczy; (2 w górę) jeśli model 3 jest znacznie lepszy niż model 2, to tak, to sugeruje, że interakcja jest znacząca (ponieważ interakcja jest jedyną różnicą między nimi); (Od 1 w górę) chcesz uniknąć po prostu polowania na znaczące efekty, chyba że myślisz o swoim badaniu jako o pilotażu, którego użyjesz do zaplanowania kolejnego badania potwierdzającego (w tym przypadku myślę, że wszystko w porządku); Rozumiem, że przeprowadziłeś to badanie, aby spojrzeć na wszystkie trzy, a więc idź z modelem 3.
Gung - Przywróć Monikę
2
Ponadto interakcja oznacza, że ​​nie należy interpretować głównych efektów, dlatego przedstawienie tylko modelu 1 może być niebezpiecznie wprowadzające w błąd. Jeśli chcesz uzyskać więcej informacji na temat rodzajów SS, napisałem dość wyczerpującą odpowiedź tutaj: stats.stackexchange.com/questions/20452/... Ponadto, w pewnym momencie powinieneś zaakceptować jedną z odpowiedzi, klikając znacznik wyboru obok jeden z nich.
gung - Przywróć Monikę
10

Wyniki z wyniku aov dają prawdopodobieństwa na podstawie sumy kwadratów typu 1. Dlatego wynik interakcji jest taki sam, a główne efekty różnią się.

Jeśli użyjesz prawdopodobieństw opartych na sumie kwadratów typu 3, będą one pasować do wyników regresji liniowej.

library(car)
Anova(aov(score~group*moderator),type=3)
Dolina górska
źródło
5
Modele liniowe i ANOVA będą równoważne, gdy modele testują te same hipotezy i gdy parametryzacja czynników jest równoważna. Tak zwane sumy „typu I” i „typu III” to kwadraty, które są po prostu testami różnych podstawowych hipotez (efekty sekwencyjnych sum kwadratów w stosunku do marginalnych sum kwadratów). ANOVA ma tendencję do ukrywania niektórych z tych decyzji zaimplementowanych w wielu pakietach - fakt, który pozwala mi wierzyć, że faktyczne konfigurowanie i testowanie hipotez będących przedmiotem zainteresowania poprzez parametryzację czynników i porównywanie modeli w GLM jest najlepszym podejściem.
Brett,
+1, ale myślę, że masz literówkę. lm używa SS typu 1, a aov używa SS typu 3.
gung - Przywróć Monikę
2
Sumy kwadratów typu III (marginalne) są domyślnie używane w lm. AOV domyślnie używałby typu I (sekwencyjnego). Wyniki LM są niezmienne w kolejności, podczas gdy wyniki aov zależą od kolejności czynników.
Brett,
Myślałem, że zarówno lm, jak i aov domyślnie użyli typu I, stąd użycie dużej litery A Anova () dla typu II i III.
Matt Albrecht,
6
Ogólnie rzecz biorąc, Anova(..., type=3)będzie nie daje poprawny typ III SS, chyba że także przełączyć się z kontrastów leczenia (domyślne R) do efektu kodującej czynników nieuporządkowanych ( options(contrasts=c("contr.sum", "contr.poly"))) lub innych sumy do zera kodów kontraście (np Helmert). Stanie się to widoczne, gdy masz niezrównoważone rozmiary komórek i więcej niż dwie grupy, i jest również wspomniane na stronie pomocy dla Anova().
caracal,
-2

Główna różnica między regresją liniową a ANOVA polega na tym, że w ANOVA zmienne predykcyjne są dyskretne (tzn. Mają różne poziomy). Natomiast w regresji liniowej zmienne predykcyjne są ciągłe.

vivek
źródło
3
Zasadniczo nie jest to prawdą.
Michael R. Chernick
Przeczytałem to gdzieś w Internecie. Czy możesz wyjaśnić kluczową różnicę. Jestem nowicjuszem.
vivek