Porównanie dwóch modeli za pomocą funkcji anova () w języku R

32

Z dokumentacji dla anova():

Po podaniu sekwencji obiektów „anova” testuje modele względem siebie w podanej kolejności ...

Co to znaczy testować modele ze sobą? A dlaczego kolejność ma znaczenie?

Oto przykład z samouczka GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Jak interpretować ten wynik?

co było do okazania
źródło

Odpowiedzi:

31

Kiedy używasz anova(lm.1,lm.2,test="Chisq"), wykonuje test Chi-kwadrat, aby porównać lm.1i lm.2(tj. Sprawdza, czy zmniejszenie rezydualnej sumy kwadratów jest statystycznie znaczące, czy nie). Zauważ, że to ma sens tylko wtedy, gdy lm.1i lm.2to modele zagnieżdżone.

α=0,05α=0,1

Sprawdź ANOVA dla modelu liniowego Pasuje również.

Stat
źródło
1
Ale czy to sugeruje coś, czy jedno z nich jest lepsze? Dzięki!
qed
5
To zależy od tego, jak zdefiniujesz termin „lepszy”. Jeśli zdefiniujesz go jako model, który zapewnia mniejszą resztkową sumę kwadratów, odpowiedź brzmi tak. Jest tak, ponieważ test ten porównuje zmniejszenie resztkowej sumy kwadratów.
Stat
3
Z drugiej strony, jeśli oba modele nie różnią się znacząco, czy można argumentować, że prostszy model jest „lepszy”? Mam na myśli parcimony tutaj.
Sininho,
1
co jeśli anova (mod1, mod2, test = "LRT") jaka to różnica?
ElleryL,