Czy słusznie rozumiem, że kolejność, w której zmienne są określone w wieloczynnikowej ANOVA, robi różnicę, ale że kolejność nie ma znaczenia przy wykonywaniu wielokrotnej regresji liniowej?
Zakładając wynik, taki jak zmierzona utrata krwi y
i dwie kategoryczne zmienne
- metoda adenoidektomii
a
, - metoda wycięcia migdałków
b
.
Model y~a+b
różni się od modelu y~b+a
(a przynajmniej moja implementacja w R wydaje się wskazywać).
Czy mam rację rozumieć, że terminem tym jest to, że ANOVA jest modelem hierarchicznym, ponieważ najpierw przypisuje tyle wariancji, ile może, pierwszemu czynnikowi, zanim spróbuje przypisać resztkową wariancję drugiemu czynnikowi?
W powyższym przykładzie hierarchia ma sens, ponieważ zawsze wykonuję adenoidektomię przed wykonaniem wycięcia migdałków, ale co by się stało, gdybyśmy mieli dwie zmienne bez właściwej kolejności?
Odpowiedzi:
Pytanie to najwyraźniej pochodziło z badania o niezrównoważonym dwukierunkowym projekcie, analizowanego w R z
aov()
funkcją; ta strona zawiera bardziej aktualny i szczegółowy przykład tego problemu.Ogólna odpowiedź na to pytanie, tak wielu, brzmi: „To zależy”. Tutaj zależy od tego, czy projekt jest zrównoważony, a jeśli nie, jaki smak ANOVA zostanie wybrany.
Po pierwsze, zależy to od tego, czy projekt jest zrównoważony. W najlepszym ze wszystkich możliwych światów, przy równej liczbie przypadków we wszystkich komórkach układu czynnikowego, nie byłoby różnicy ze względu na kolejność wprowadzania czynników do modelu, niezależnie od tego, jak przeprowadzana jest ANOVA. * Podane przypadki , ewidentnie z retrospektywnej kohorty klinicznej, wydają się pochodzić z prawdziwego świata, w którym takiej równowagi nie znaleziono. Więc kolejność może mieć znaczenie.
Po drugie, zależy to od sposobu wykonania ANOVA, co jest dość kontrowersyjną kwestią. Rodzaje ANOVA dla niezrównoważonych projektów różnią się w kolejności oceny głównych efektów i interakcji. Ocena interakcji ma fundamentalne znaczenie dla dwukierunkowej i wyższego rzędu ANOVA, więc istnieją spory o najlepszy sposób postępowania. Zobacz stronę Cross Validated, aby uzyskać jedno wyjaśnienie i dyskusję. Zobacz szczegóły i ostrzeżenie dotyczące funkcji
Anova()
(z dużą literą „A”) w instrukcji obsługicar
pakietu, aby uzyskać inny widok.Kolejność czynników ma znaczenie w projektach niezrównoważonych pod domyślną wartością
aov()
w R, która wykorzystuje tak zwane testy typu I. Są to sekwencyjne przypisania wariancji do czynników w kolejności wprowadzania do modelu, jak przewidziano w obecnym pytaniu. Kolejność nie ma znaczenia w testach typu II lub typu III zapewnianych przezAnova()
funkcję wcar
pakiecie w R. Te alternatywy mają jednak swoje własne potencjalne wady wymienione w powyższych linkach.Na koniec zastanów się nad relacją wielokrotnej regresji liniowej jak
lm()
w R, która jest zasadniczo tego samego typu modelem, jeśli uwzględnisz terminy interakcji. Kolejność wprowadzania zmiennychlm()
nie ma znaczenia pod względem współczynników regresji i wartości p zgłoszonych przezsummary(lm())
, w których czynnik kategorialny na poziomie k jest kodowany jako (b-1) zmienne binarne manekina, a współczynnik regresji jest zgłaszany dla każdego manekina .Możliwe jest jednak zawinięcie danych
lm()
wyjściowychanova()
(małe litery „a” zstats
pakietu R ) lubAnova()
podsumowanie wpływu każdego czynnika na wszystkie jego poziomy, jak można się spodziewać w klasycznej ANOVA. W takim przypadku kolejność czynników będzie miała znaczenieanova()
dlaaov()
i nie będzie miała znaczeniaAnova()
. Podobnie powróciłyby spory dotyczące tego, jakiego rodzaju ANOVA użyć. Dlatego nie jest bezpieczne zakładanie niezależności od wprowadzania czynnika we wszystkich dalszych zastosowaniachlm()
modeli.* Posiadanie równej liczby obserwacji we wszystkich komórkach jest wystarczające, ale, jak rozumiem, nie jest konieczne, aby kolejność czynników była nieistotna. Mniej wymagające rodzaje równowagi mogą pozwolić na niezależność od zamówień.
źródło
Pojęcie model hierarchiczny odnosi się do struktury między czynnikami. Na przykład badanie wieloośrodkowe jest hierarchiczne: pacjenci są zagnieżdżeni w leczonych szpitalach. Każdy szpital traktuje pacjentów za pomocą placebo i verum, ale otrzymywanie każdego z nich w szpitalu A lub B jest nieco inne z powodu pewnego wspólnego wpływu szpitala na wszystkich pacjentów (może to być nawet efekt interakcji ze środkiem eksperymentalnym). To się nazywa efekt hierarchiczny.
Teraz twoje metody ektomii mogą być hierarchiczne: Czy jest prawdopodobne, że pewna metoda tonsillektomii jest nieco inna (sama w sobie, jeszcze nie działa, ponieważ to właśnie oszacujesz i przetestujesz) w zależności od metody adenoidektomii zastosowanej wcześniej cierpliwy? Jeśli tak, powinieneś to określić w swoim modelu.
Twoja obserwacja, że y ~ a + b może różnić się od y ~ b + a, wskazuje, że coś jest nie tak. Efekty addytywne dojeżdżają do pracy, więc nie powinno być różnicy (poza małymi różnicami liczbowymi). Nie jest ani prawdopodobne, ani pożądane, aby efekt metod chirurgicznych mógł zależeć od kolejności, w której statystycy później określają efekty. Prawdopodobnie wybrałeś niewłaściwe podejście do karmienia
R
danymi.źródło
aov
polecenie w R domyślnie używa SS typu I. Kiedy zaoferowałem nagrodę, spodziewałem się odpowiedzi wyjaśniającej problemy związane z niezrównoważonym projektem anova, różnicami między typem SS I / II / III SS i niektórymi uwagami na temat tego, czy regresja liniowa ma te same problemy.aov
zamiastlm
, i byłoby pomocne mieć odpowiedź na to pytanie w rodzaju, że @amoeba wskazanym w komentarzu z 12 maja, 14:31 .