Kolejność zmiennych w ANOVA ma znaczenie, prawda?

20

Czy słusznie rozumiem, że kolejność, w której zmienne są określone w wieloczynnikowej ANOVA, robi różnicę, ale że kolejność nie ma znaczenia przy wykonywaniu wielokrotnej regresji liniowej?

Zakładając wynik, taki jak zmierzona utrata krwi y i dwie kategoryczne zmienne

  1. metoda adenoidektomii a ,
  2. metoda wycięcia migdałków b .

Model y~a+bróżni się od modelu y~b+a(a przynajmniej moja implementacja w R wydaje się wskazywać).

Czy mam rację rozumieć, że terminem tym jest to, że ANOVA jest modelem hierarchicznym, ponieważ najpierw przypisuje tyle wariancji, ile może, pierwszemu czynnikowi, zanim spróbuje przypisać resztkową wariancję drugiemu czynnikowi?

W powyższym przykładzie hierarchia ma sens, ponieważ zawsze wykonuję adenoidektomię przed wykonaniem wycięcia migdałków, ale co by się stało, gdybyśmy mieli dwie zmienne bez właściwej kolejności?

Farrel
źródło
12
Kolejność ma znaczenie w ANOVA z niezrównoważonymi projektami, tj. Gdy występują nierówne rozmiary komórek. Temat ten jest często traktowany pod nagłówkiem „rodzaje sum kwadratów”. Zobacz epm.sagepub.com/content/38/3/621.full.pdf+html i odpowiedź chl na stats.stackexchange.com/questions/11209/…
caracal
1
Zobacz także odpowiedź Gunga w stats.stackexchange.com/questions/20452 .
ameba mówi Przywróć Monikę
Właśnie przedłużyłem moją starszą dyskusję, mając nadzieję, że rzuci ona jeszcze więcej światła na tę sprawę. Z pewnością nadal wymaga pracy i być może ktoś ma nerwy, aby pomóc w jej edycji. Oto, co mam do tej pory: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Możliwe, że jest coś interesującego z potencjałem do uzyskania jakiejś wyraźnej odpowiedzi na to pytanie tutaj.
Gottfried Helms

Odpowiedzi:

17

Pytanie to najwyraźniej pochodziło z badania o niezrównoważonym dwukierunkowym projekcie, analizowanego w R z aov()funkcją; ta strona zawiera bardziej aktualny i szczegółowy przykład tego problemu.

Ogólna odpowiedź na to pytanie, tak wielu, brzmi: „To zależy”. Tutaj zależy od tego, czy projekt jest zrównoważony, a jeśli nie, jaki smak ANOVA zostanie wybrany.

Po pierwsze, zależy to od tego, czy projekt jest zrównoważony. W najlepszym ze wszystkich możliwych światów, przy równej liczbie przypadków we wszystkich komórkach układu czynnikowego, nie byłoby różnicy ze względu na kolejność wprowadzania czynników do modelu, niezależnie od tego, jak przeprowadzana jest ANOVA. * Podane przypadki , ewidentnie z retrospektywnej kohorty klinicznej, wydają się pochodzić z prawdziwego świata, w którym takiej równowagi nie znaleziono. Więc kolejność może mieć znaczenie.

Po drugie, zależy to od sposobu wykonania ANOVA, co jest dość kontrowersyjną kwestią. Rodzaje ANOVA dla niezrównoważonych projektów różnią się w kolejności oceny głównych efektów i interakcji. Ocena interakcji ma fundamentalne znaczenie dla dwukierunkowej i wyższego rzędu ANOVA, więc istnieją spory o najlepszy sposób postępowania. Zobacz stronę Cross Validated, aby uzyskać jedno wyjaśnienie i dyskusję. Zobacz szczegóły i ostrzeżenie dotyczące funkcji Anova()(z dużą literą „A”) w instrukcji obsługi carpakietu, aby uzyskać inny widok.

Kolejność czynników ma znaczenie w projektach niezrównoważonych pod domyślną wartością aov()w R, która wykorzystuje tak zwane testy typu I. Są to sekwencyjne przypisania wariancji do czynników w kolejności wprowadzania do modelu, jak przewidziano w obecnym pytaniu. Kolejność nie ma znaczenia w testach typu II lub typu III zapewnianych przez Anova()funkcję w carpakiecie w R. Te alternatywy mają jednak swoje własne potencjalne wady wymienione w powyższych linkach.

Na koniec zastanów się nad relacją wielokrotnej regresji liniowej jak lm()w R, która jest zasadniczo tego samego typu modelem, jeśli uwzględnisz terminy interakcji. Kolejność wprowadzania zmiennych lm()nie ma znaczenia pod względem współczynników regresji i wartości p zgłoszonych przez summary(lm()), w których czynnik kategorialny na poziomie k jest kodowany jako (b-1) zmienne binarne manekina, a współczynnik regresji jest zgłaszany dla każdego manekina .

Możliwe jest jednak zawinięcie danych lm()wyjściowych anova()(małe litery „a” z statspakietu R ) lub Anova()podsumowanie wpływu każdego czynnika na wszystkie jego poziomy, jak można się spodziewać w klasycznej ANOVA. W takim przypadku kolejność czynników będzie miała znaczenie anova()dla aov()i nie będzie miała znaczenia Anova(). Podobnie powróciłyby spory dotyczące tego, jakiego rodzaju ANOVA użyć. Dlatego nie jest bezpieczne zakładanie niezależności od wprowadzania czynnika we wszystkich dalszych zastosowaniach lm()modeli.


* Posiadanie równej liczby obserwacji we wszystkich komórkach jest wystarczające, ale, jak rozumiem, nie jest konieczne, aby kolejność czynników była nieistotna. Mniej wymagające rodzaje równowagi mogą pozwolić na niezależność od zamówień.

EdM
źródło
Rzeczywiście tak, te dane obserwacyjne były niezrównoważone, bardzo niezrównoważone.
Farrel,
Mam nadzieję, że ten komentarz nadal zawiera odpowiedź: mówisz, że zgodnie ze zrównoważonym projektem badania ocena SS nigdy nie będzie zależała od zamówienia, niezależnie od wybranego rodzaju testu anova (typ I, II, III). Nie jestem pewien, czy to rozumiem. używając funkcji „anova” w R (która wykorzystuje testy typu I) w modelu liniowym opartym na zbalansowanych danych, z pewnością kolejność cech ma znaczenie, prawda?
PejoPhylo
1
@PejoPhylo, gdy dane są zrównoważone, możesz mieć tak zwany projekt ortogonalny. Przy ortogonalnym projekcie istnieje jeden unikalny sposób na podzielenie sum kwadratów pomiędzy zabiegi i ich interakcje, więc kolejność wprowadzania zabiegów nie będzie miała znaczenia w odniesieniu do oszacowań efektów i ich wartości p. Ta strona zawiera matematyczne wyjaśnienie. Nie jest to od razu oczywiste; pytanie, które właśnie podłączyłem, zostało zadane przez członka tej witryny o jednej z najwyższych reputacji. Niezrównoważone dane mogą zniszczyć ortogonalność.
EdM
Bardzo dziękuję za odpowiedź @EdM
PejoPhylo,
0

Pojęcie model hierarchiczny odnosi się do struktury między czynnikami. Na przykład badanie wieloośrodkowe jest hierarchiczne: pacjenci są zagnieżdżeni w leczonych szpitalach. Każdy szpital traktuje pacjentów za pomocą placebo i verum, ale otrzymywanie każdego z nich w szpitalu A lub B jest nieco inne z powodu pewnego wspólnego wpływu szpitala na wszystkich pacjentów (może to być nawet efekt interakcji ze środkiem eksperymentalnym). To się nazywa efekt hierarchiczny.

Teraz twoje metody ektomii mogą być hierarchiczne: Czy jest prawdopodobne, że pewna metoda tonsillektomii jest nieco inna (sama w sobie, jeszcze nie działa, ponieważ to właśnie oszacujesz i przetestujesz) w zależności od metody adenoidektomii zastosowanej wcześniej cierpliwy? Jeśli tak, powinieneś to określić w swoim modelu.

Twoja obserwacja, że ​​y ~ a + b może różnić się od y ~ b + a, wskazuje, że coś jest nie tak. Efekty addytywne dojeżdżają do pracy, więc nie powinno być różnicy (poza małymi różnicami liczbowymi). Nie jest ani prawdopodobne, ani pożądane, aby efekt metod chirurgicznych mógł zależeć od kolejności, w której statystycy później określają efekty. Prawdopodobnie wybrałeś niewłaściwe podejście do karmienia Rdanymi.

Horst Grünbusch
źródło
1
Nie jestem pewien, czy przestrzegam ostatniego akapitu. W niezrównoważonej czynnikowej ANOVA wartości p dla każdego czynnika obliczone za pomocą sumy kwadratów typu I (sekwencyjnej) z pewnością będą zależeć od kolejności czynników. Uważam, że to jest sedno pytania.
ameba mówi Przywróć Monikę
Nie jestem pewien, czy @Farrel ma SS typu I. Pamiętam, jak kiedyś zauważyłem, że SAS wyprowadza różne SS typu III ze względu na pewne odmienne sortowanie w zestawie danych i instrukcji modelu. Może to może się zdarzyć również z R?
Horst Grünbusch,
2
Nie wiem na pewno, a on może nie pamiętać siebie, biorąc pod uwagę, że Q został zadany pięć lat temu. Ale myślę, że jest to zdecydowanie najbardziej oszczędna interpretacja jego słów „Model y ~ a + b różni się od modelu y ~ b + a (a przynajmniej moja implementacja w R wydaje się wskazywać)”, w szczególności biorąc pod uwagę fakt to aovpolecenie w R domyślnie używa SS typu I. Kiedy zaoferowałem nagrodę, spodziewałem się odpowiedzi wyjaśniającej problemy związane z niezrównoważonym projektem anova, różnicami między typem SS I / II / III SS i niektórymi uwagami na temat tego, czy regresja liniowa ma te same problemy.
ameba mówi Przywróć Monikę
1
Nie. Matryca projektowa jest pojedyncza w anova, nawet jeśli jest zrównoważona, gdy nie ma różnicy między SS I / II / III. SS I / II / III różnią się tylko w przypadku niezrównoważenia, ponieważ czynniki stają się nieortogonalne (w przeciwieństwie do przypadku zrównoważonego). W moim rozumieniu odpowiada to regresji liniowej ze skorelowanymi predyktorami, co jest bardzo częstą sytuacją. Moja odpowiedź jest taka, że ​​ten sam problem występuje również w regresji, po prostu standardem jest obliczenie wartości p jednego predyktora po uwzględnieniu skutków wszystkich innych predyktorów; odpowiada to SS typu III in anova.
ameba mówi Przywróć Monikę
1
Ciągle pojawiają się takie pytania o kolejność zmiennych w ANOVA, takie jak to, które migrowało wczoraj z przepełnienia stosu. Myślę, że jest bezpiecznie założyć, że ten 5-letni pytanie było oparte na podobnie aovzamiast lm, i byłoby pomocne mieć odpowiedź na to pytanie w rodzaju, że @amoeba wskazanym w komentarzu z 12 maja, 14:31 .
EdM