Mam te dane:
set.seed(1)
predictor <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)
Przeprowadziłem regresję Poissona
poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")
I ujemna regresja dwumianowa:
require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)
Następnie obliczyłem statystyki dyspersji dla regresji Poissona:
sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)
# [1] 145.4905
I ujemna regresja dwumianowa:
sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)
# [1] 0.7650289
Czy ktokolwiek jest w stanie wyjaśnić, BEZ UŻYCIA RÓWNIKÓW, dlaczego statystyka dyspersji dla ujemnej regresji dwumianowej jest znacznie mniejsza niż statystyka dyspersji dla regresji Poissona?
W przypadku modelu Poissona, jeśli oczekiwanie dla tej obserwacji wynosi jego wariancja wynosi , a zatem resztkowa wartość Pearsonja Yja μi μi
gdzie jest oszacowaniem średniej. Wyjaśniono tutaj parametryzację ujemnego modelu dwumianowego stosowanego w MASS . Jeśli oczekiwaniem dla tej obserwacji jest jej wariancja wynosi , a zatem pozostałość Pearsonaμ^ i Yi μi μi+μ2θ
gdzie jest oszacowaniem średniej. Im mniejsza wartość - tj. Bardziej dodatkowa wariancja Poissona - tym mniejsza wartość resztkowa w porównaniu do jej ekwiwalentu Poissona. [Ale jak zauważył @whuber, oszacowania średnich nie są takie same, , ponieważ procedura estymacji waży obserwacje zgodnie z ich zakładaną wariancją. Jeśli mielibyście wykonać pomiary dla tego wzoru predykcyjnego, zbliżyliby się i ogólnie dodanie parametru powinno dać lepsze dopasowanie do wszystkich obserwacji, chociaż nie wiem, jak to dokładnie wykazać. Mimo to szacowane ilości populacji są większe, jeśli model Poissona utrzymuje, więc nie powinno to być zaskoczeniem.]μ~ θ μ^≠μ~ i
źródło