Mam logistyczny model GLM z 8 zmiennymi. Przeprowadziłem test chi-kwadrat w R, anova(glm.model,test='Chisq')
a 2 zmienne okazały się predykcyjne, gdy zamówiono je u góry testu, i nie tak bardzo, gdy zamówiono u dołu. summary(glm.model)
Sugeruje, że ich współczynniki są nieznaczne (wysoka wartość p). W tym przypadku wydaje się, że zmienne nie są znaczące.
Chciałem zapytać, który jest lepszy test istotności zmiennych - istotność współczynnika w podsumowaniu modelu lub test chi-kwadrat z anova()
. Ponadto - kiedy jedno z nich jest lepsze od drugiego?
Myślę, że to szerokie pytanie, ale wszelkie wskazówki dotyczące tego, co należy rozważyć, będą mile widziane.
Odpowiedzi:
Oprócz odpowiedzi @ gung postaram się podać przykład tego, co
anova
funkcja faktycznie testuje. Mam nadzieję, że pozwoli ci to zdecydować, które testy są odpowiednie dla hipotez, które chcesz przetestować.my.mod <- glm(y~x1+x2+x3, family="binomial")
anova(my.mod, test="Chisq")
glm(y~1, family="binomial")
vs.glm(y~x1, family="binomial")
glm(y~x1, family="binomial")
vs.glm(y~x1+x2, family="binomial")
glm(y~x1+x2, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
Dlatego sekwencyjnie porównuje mniejszy model z kolejnym bardziej złożonym modelem, dodając jedną zmienną na każdym etapie. Każde z tych porównań odbywa się za pomocą testu współczynnika wiarygodności (test LR; patrz przykład poniżej). O ile mi wiadomo, te hipotezy rzadko są interesujące, ale musisz o tym zadecydować.
Oto przykład w
R
:summary(my.mod)
x1
:glm(y~x2+x3, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
x2
:glm(y~x1+x3, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
x3
:glm(y~x1+x2, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
Zatem każdy współczynnik w stosunku do pełnego modelu zawierającego wszystkie współczynniki. Testy Walda są przybliżeniem testu współczynnika wiarygodności. Możemy również wykonać testy współczynnika wiarygodności (test LR). Oto jak:
summary(my.mod)
rank
anova(my.mod, test="Chisq")
rank
anova(mod1.2, my.mod, test="Chisq")
rank
modelu zawierającego go.źródło
test="Chisq"
nie przeprowadzasz testu współczynnika wiarygodności, musisz to ustawićtest="LRT"
, patrz ? Anova.glm .test="LRT"
itest="Chisq"
są synonimami (jest to napisane na stronie, którą podłączyłeś).test="LRT"
jest lepszy, ponieważ od razu wiadomo, że jest to test współczynnika prawdopodobieństwa. Zmieniłem to. Dzięki.7.088e-05, 0.01419, 00.03684
należy interpretować wartości p ( )?