Moje podstawowe pytanie brzmi: jak interpretować wynik (współczynniki, F, P) podczas przeprowadzania ANOVA typu I (sekwencyjnego)?
Mój konkretny problem badawczy jest nieco bardziej złożony, dlatego podzielę mój przykład na części. Po pierwsze, jeśli interesuje mnie wpływ gęstości pająków (X1) na powiedzmy wzrost roślin (Y1) i sadziłem sadzonki w zagrodach i manipulowałem gęstością pająków, to mogę analizować dane za pomocą prostej ANOVA lub regresji liniowej. Wtedy nie miałoby to znaczenia, jeśli użyłem Typu I, II lub III Sumy Kwadratów (SS) dla mojej ANOVA. W moim przypadku mam 4 powtórzenia 5 poziomów gęstości, więc mogę użyć gęstości jako czynnika lub zmiennej ciągłej. W tym przypadku wolę interpretować go jako ciągłą zmienną niezależną (predyktorową). W RI może działać następujące:
lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)
Miejmy nadzieję, że uruchomienie funkcji anova będzie miało sens później, więc zignoruj tutaj jej dziwność. Dane wyjściowe to:
Response: y1
Df Sum Sq Mean Sq F value Pr(>F)
density 1 0.48357 0.48357 3.4279 0.08058 .
Residuals 18 2.53920 0.14107
Powiedzmy, że podejrzewam, że początkowy poziom nieorganicznego azotu w glebie, którego nie mogłem kontrolować, mógł również znacząco wpłynąć na wzrost rośliny. Nie jestem szczególnie zainteresowany tym efektem, ale chciałbym potencjalnie uwzględnić zmienność, którą powoduje. Naprawdę, moim głównym zainteresowaniem są efekty gęstości pająków (hipoteza: zwiększona gęstość pająków powoduje wzrost roślin - przypuszczalnie poprzez redukcję owadów roślinożernych, ale testuję tylko efekt, a nie mechanizm). Mógłbym dodać efekt nieorganicznego N do mojej analizy.
Ze względu na moje pytanie, udawajmy, że testuję gęstość interakcji * nieorganicznaN i jest ona nieistotna, więc usuwam ją z analizy i uruchamiam następujące główne efekty:
> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table
Response: y1
Df Sum Sq Mean Sq F value Pr(>F)
density 1 0.48357 0.48357 3.4113 0.08223 .
inorganicN 1 0.12936 0.12936 0.9126 0.35282
Residuals 17 2.40983 0.14175
Teraz robi to różnicę, czy używam SS typu I, czy II (wiem, że niektórzy ludzie sprzeciwiają się terminom Typu I i II itd., Ale biorąc pod uwagę popularność SAS, jest to łatwe w skrócie). R anova {stats} domyślnie używa typu I. Mogę obliczyć gęstość SS, F i P typu II, odwracając kolejność moich głównych efektów lub mogę użyć pakietu „samochodu” dr. Johna Foxa (towarzyszącego regresji stosowanej). Wolę tę drugą metodę, ponieważ łatwiej jest w przypadku bardziej złożonych problemów.
library(car)
Anova(lm2)
Sum Sq Df F value Pr(>F)
density 0.58425 1 4.1216 0.05829 .
inorganicN 0.12936 1 0.9126 0.35282
Residuals 2.40983 17
Rozumiem, że hipotezy typu II brzmiałyby: „Nie ma liniowego wpływu x1 na y1, biorąc pod uwagę (utrzymywanie stałej?) X2” i to samo dla x2, biorąc pod uwagę x1. Myślę, że to jest miejsce, w którym się mylę. Jaka hipoteza jest testowana przez ANOVA przy użyciu powyższej metody typu I (sekwencyjnej) w porównaniu z hipotezą przy użyciu metody typu II?
W rzeczywistości moje dane są nieco bardziej złożone, ponieważ zmierzyłem wiele wskaźników wzrostu roślin, a także dynamikę składników odżywczych i rozkład śmieci. Moja faktyczna analiza przypomina:
Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)
Type II MANOVA Tests: Pillai test statistic
Df test stat approx F num Df den Df Pr(>F)
density 1 0.34397 1 5 12 0.34269
nitrate 1 0.99994 40337 5 12 < 2e-16 ***
Npred 1 0.65582 5 5 12 0.01445 *
# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)
Df Pillai approx F num Df den Df Pr(>F)
density 1 0.99950 4762 5 12 < 2e-16 ***
nitrate 1 0.99995 46248 5 12 < 2e-16 ***
Npred 1 0.65582 5 5 12 0.01445 *
Residuals 16
źródło