Przetestuj model GLM przy użyciu wartości zerowej i odchyleń modelu

11

Zbudowałem model GLM w R i przetestowałem go przy użyciu grupy testowej i szkoleniowej, więc jestem pewien, że działa dobrze. Wyniki z R są następujące:

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)               -2.781e+00  1.677e-02 -165.789  < 2e-16 ***
Coeff_A                    1.663e-05  5.438e-06    3.059  0.00222 ** 
log(Coeff_B)               8.925e-01  1.023e-02   87.245  < 2e-16 ***
log(Coeff_C)              -3.978e-01  7.695e-03  -51.689  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.9995149)

    Null deviance: 256600  on 671266  degrees of freedom
Residual deviance: 237230  on 671263  degrees of freedom
AIC: NA

Wszystkie wartości p dla współczynników są małe zgodnie z oczekiwaniami.

Patrząc na to pytanie ( Interpretowanie odchylenia rezydualnego i zerowego w GLM R ), powinienem być w stanie obliczyć, czy hipoteza zerowa ma zastosowanie przy użyciu następującego równania:

p-value = 1 - pchisq(deviance, degrees of freedom)

Wciśnięcie tego daje:

1 - pchisq(256600, 671266)
[1] 1

Czy mam zatem rację, sądząc, że nie można tu odrzucić hipotezy zerowej, mimo że wartości p dla wszystkich współczynników są tak małe, czy też źle zinterpretowałem, jak to obliczyć?

Zfunk
źródło

Odpowiedzi:

18

Tu jest nieporozumienie. Różnica pomiędzy dewiacji nieważną i dewiacji modelu jest rozprowadzany jako chi-kwadrat z stopniami swobody równa df zerowej minus df modelu. Dla twojego modelu byłoby to:

1-pchisq(256600 - 237230, df=(671266 - 671263))
# [1] 0

Domyślnie pchisq()podaje proporcję rozkładu po lewej stronie wartości. Aby uzyskać proporcję bardziej ekstremalną niż różnica, możesz określić lower.tail = FALSElub odjąć wynik od (tak jak zrobiliśmy to z tobą). 1

gung - Przywróć Monikę
źródło
2
Jaką hipotezę dokładnie testujesz ze stwierdzeniem 1-pchisq(256600 - 237230, df=(671266 - 671263))?
jII
5
@jesterII, sprawdzasz, czy dewiacja zmieniła się bardziej, niż można by się spodziewać przez przypadek. Tzn. Testujesz, czy model jako całość jest lepszy niż model zerowy. Jest to analogiczne do globalnego testu F w modelu liniowym.
Gung - Przywróć Monikę
Hipoteza zerowa jest taka, że ​​„model jako całość jest lepszy niż model zerowy”, a ty odrzuciłeś hipotezę zerową, co oznacza, że ​​model jest słaby?
jII
3
@jesterII, hipoteza zerowa nie brzmi: „model jako całość nie jest lepszy niż model zerowy”. Ponieważ zostało to odrzucone, dochodzimy do wniosku, że dane nie są spójne z modelem zerowym. Uwaga: niekoniecznie oznacza to, że nasz model jest „dobry” lub „poprawny”.
Gung - Przywróć Monikę