Prawdopodobnie bardzo podstawowe pytanie dotyczące wieloczynnikowej ANOVA. Załóżmy dwustronny projekt, w którym testujemy zarówno główne efekty A, B, jak i interakcję A: B. Podczas testowania głównego efektu dla A z typem I SS, efekt SS jest obliczany jako różnica , gdzie jest sumą błędu resztkowego kwadratów dla modelu z tylko punktem przecięcia, oraz RSS dla modelu z dodanym współczynnikiem A. Moje pytanie dotyczy wyboru terminu błędu:R S S ( 1 ) R S S ( A )
W jaki sposób uzasadniasz, że wartość błędu dla tego testu jest zazwyczaj obliczana na podstawie danych RSS pełnego modelu A + B + A: B, który obejmuje zarówno główne efekty, jak i interakcję?
... w przeciwieństwie do wzięcia terminu błędu z nieograniczonego modelu z faktycznego porównania (RSS tylko z głównego efektu A w powyższym przypadku):
To robi różnicę, ponieważ termin błędu z pełnego modelu jest prawdopodobnie często (nie zawsze) mniejszy niż termin błędu z nieograniczonego modelu w porównaniu. Wydaje się, że wybór terminu błędu jest nieco arbitralny, tworząc miejsce na pożądane zmiany wartości p po prostu przez dodanie / usunięcie czynników, które tak naprawdę nie są interesujące, ale i tak zmienią termin błędu.
W poniższym przykładzie wartość F dla A zmienia się znacznie w zależności od wyboru pełnego modelu, mimo że rzeczywiste porównanie dla efektu SS pozostaje takie samo.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
To samo pytanie dotyczy SS typu II i ogólnie ogólnej hipotezy liniowej, tj. Porównania modelu między modelem ograniczonym i nieograniczonym w pełnym modelu. (W przypadku SS typu III nieograniczonym modelem jest zawsze pełny model, więc nie pojawia się tam pytanie)
źródło
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))
IV1
(pierwszy przykład), wówczas dwa wyrażenia dla mianownika są identyczne. Jednak gdy pełny model zawiera dodatkowe efekty, mianownik do testowania zmienia się, mimo że porównanie modelu (w porównaniu do typu 1 SS) nie zmienia się. W 3 przykładach średni kwadrat dla nie zmienia się (porównanie tego samego modelu we wszystkich przypadkach), ale średni błąd kwadratowy zmienia się. Interesuje mnie, co uzasadnia zmianę terminu błędu, gdy rzeczywiste porównanie pozostaje takie samo. A~ 1
~ IV1 + 1
Odpowiedzi:
To bardzo stare pytanie i uważam, że odpowiedź @ gung jest bardzo dobra (+1). Ale ponieważ @caracal nie było do końca przekonujące i ponieważ nie w pełni śledzę wszystkie jego zawiłości, chciałbym przedstawić prostą cyfrę ilustrującą sposób, w jaki rozumiem ten problem.
Rozważmy dwukierunkową ANOVA (czynnik A ma trzy poziomy, czynnik B ma dwa poziomy), przy czym oba czynniki są oczywiście bardzo znaczące:
SS dla czynnika A jest ogromne. SS dla czynnika B jest znacznie mniejszy, ale z najwyższej liczby jasno wynika, że czynnik B jest jednak również bardzo znaczący.
Błąd SS dla modelu zawierającego oba czynniki jest reprezentowany przez jednego z sześciu Gaussów, a porównując SS dla czynnika B z tym błędem SS, test wykaże, że czynnik B jest znaczący.
Błąd SS dla modelu zawierającego tylko czynnik B jest jednak ogromny! Porównanie SS dla czynnika B z tym ogromnym błędem SS na pewno spowoduje, że B nie będzie znaczący. Co oczywiście nie jest prawdą.
Dlatego sensowne jest użycie błędu SS z pełnego modelu.
źródło
Aktualizacja: Aby wyjaśnić niektóre punkty, które tu przekazuję, dodałem linki do miejsc, w których pełniej omawiam odpowiednie pomysły.
Test F sprawdza, czy istnieje więcej zmienności (konkretnie średnich kwadratów) związanych z czynnikiem, niż można by się spodziewać przypadkowo. Ile zmienności możemy się spodziewać przez przypadek, szacuje się na podstawie sumy błędów do kwadratu, to znaczy, ile zmienności wynika z (powiązanego) nieznanego czynnika. Są to twoje pozostałości, które pozostały po rozliczeniu wszystkiego, o czym wiesz. W twoim przykładzie zawiera nie tylko błąd resztkowy, ale także zmienność wynikającą ze znanych czynników. Podczas gdy ma teoretycznie podskakiwać do pewnego stopnia przez przypadek, kwota ta nie jest teoretycznie oparta na innych znanych czynnikach 1 . Dlatego niewłaściwe byłoby użycie S S A M S A M S A + B + A ∗ BR SS.ZA S.S.ZA M.S.ZA jako mianownik w teście F. Ponadto użycie daje większą moc, zmniejszając prawdopodobieństwo błędu typu II i nie powinno zwiększać błędu typu I. M.S.A + B + A ∗ B
W twoim pytaniu są dodatkowe problemy. Wspominasz, że nie zawsze jest najniższy, aw twoim przykładzie . Jest tak, ponieważ interakcja nie jest tak naprawdę związana z żadną własną zmiennością. że wynika wyłącznie z przypadku. Istnieje precyzyjna, ale nieco skomplikowana formuła, która określa, jak zmieni się moc, jeśli zostaną uwzględnione lub wykluczone z modelu różne czynniki. Nie mam tego na wyciągnięcie ręki, ale sedno tego jest proste: kiedy podasz inny czynnik, RSS maleje (dając ci więcej mocy), ale M S A + B + A ∗ B > M S A + B S S A ∗ B = 14,19 d f RRSSfull MSA+B+A∗B>MSA+B SSA∗B=14.19 dfR spada również (dając mniej mocy). Bilans tego kompromisu zależy zasadniczo od tego, czy SS związane z tym czynnikiem są rzeczywiste, czy tylko z powodu przypadku, który w praktyce jest luźno wskazywany przez to, czy czynnik jest znaczący 2 . Jednak wyeliminowanie z modelu czynników, które nie są istotne, aby uzyskać odpowiedni termin błędu, jest logicznie równoważne automatycznej procedurze wyszukiwania modelu, nawet jeśli nie masz oprogramowania, które zrobi to automatycznie. Powinieneś wiedzieć, że jest z tym wiele problemów. Te problemy i alternatywne procedury zostały omówione w innym miejscu w CV 3 .
Ostatni temat dotyczy różnych typów SS. Po pierwsze, użycie różnych typów SS nie powoduje, że nie potrzebujesz logicznego uzasadnienia swojej analizy. Ale ponadto SS typu I - III są związane z innym problemem. W twoim przykładzie zbieram twoje czynniki są ortogonalne, tj. Przeprowadziłeś eksperyment, w którym przypisałeś równe n każdej kombinacji poziomów czynników. Jeśli jednak przeprowadzisz badanie obserwacyjne lub wystąpią problemy z porzuceniem, czynniki będą skorelowane. Konsekwencją tego jest to, że nie ma unikalnego sposobu podziału SS, więc nie ma unikalnej odpowiedzi dla twoich analiz. Innymi słowy, różne typy SS mają związek z różnymi możliwymi licznikami dla testu F, gdy czynniki są skorelowane 4 .
1. Należy zauważyć, że w przypadku modeli wielopoziomowych współczynnik można teoretycznie uwzględniać zmienność względem innych czynników, w zależności od tego, w jaki sposób model jest określony. Mówię tutaj o zwykłej ANOVA, o którą pytasz.
2. Zobacz: W jaki sposób dodanie 2. IV może sprawić, że 1. IV będzie znaczący?
3. Zobacz: Algorytmy automatycznego wyboru modelu .
4. Zobacz: Jak interpretować ANOVA typu I (sekwencyjna) i MANOVA?
źródło
Uzasadnieniem jest to, że czynnik A wyjaśnia większy procent niewyjaśnionej zmienności w modelu A + B w porównaniu z modelem A, ponieważ czynnik B wyjaśnia znaczną część (a zatem „usuwa” go z analizy).
źródło