Chcę przeprowadzić regresję logistyczną z następującą odpowiedzią dwumianową oraz z i jako moimi predyktorami.
Mogę przedstawić te same dane, co odpowiedzi Bernoulliego w następującym formacie.
Wyniki regresji logistycznej dla tych 2 zestawów danych są w większości takie same. Wartości odchylenia i AIC są różne. (Różnica między dewiacją zerową a dewiacją szczątkową jest taka sama w obu przypadkach - 0,228).
Poniżej przedstawiono wyniki regresji z R. Zestawy danych nazywane są binom.data i bern.data.
Oto wyjście dwumianowe.
Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2,
family = binomial, data = binom.data)
Deviance Residuals:
[1] 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9649 21.6072 -0.137 0.891
X1Yes -0.1897 2.5290 -0.075 0.940
X2 0.3596 1.9094 0.188 0.851
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.2846e-01 on 2 degrees of freedom
Residual deviance: -4.9328e-32 on 0 degrees of freedom
AIC: 11.473
Number of Fisher Scoring iterations: 4
Oto wyjście Bernoulli.
Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6651 -1.3537 0.7585 0.9281 1.0108
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9649 21.6072 -0.137 0.891
X1Yes -0.1897 2.5290 -0.075 0.940
X2 0.3596 1.9094 0.188 0.851
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 15.276 on 11 degrees of freedom
Residual deviance: 15.048 on 9 degrees of freedom
AIC: 21.048
Number of Fisher Scoring iterations: 4
Moje pytania:
1) Widzę, że oszacowania punktowe i standardowe błędy między dwoma podejściami są równoważne w tym konkretnym przypadku. Czy ogólnie ta równoważność jest prawdziwa?
2) Jak matematycznie uzasadnić odpowiedź na pytanie nr 1?
3) Dlaczego reszty odchylenia i AIC są różne?
Chcę tylko skomentować ostatni akapit: „Fakt, że AIC jest inny (ale zmiana odchylenia nie jest), wraca do stałego terminu, który był różnicą między prawdopodobieństwami logarytmicznymi obu modeli. Przy obliczaniu zmiany odchylenia jest to anulowane, ponieważ jest takie samo we wszystkich modelach opartych na tych samych danych. ”Niestety, nie jest to poprawne dla zmiany odchylenia. Odchylenie nie obejmuje stałego terminu Ex (dodatkowa stała termin w log-prawdopodobieństwie dla danych dwumianowych). Dlatego zmiana dewiacji nie ma nic wspólnego ze stałym terminem EX. dewiacja porównuje dany model z pełnym modelem. Fakt, że odchylenia różnią się od Bernoulliego / binarnego i modelowanie dwumianowe, ale zmiana odchylenia nie jest spowodowana różnicą w pełnych wartościach logarytmu wiarygodności modelu. Wartości te są anulowane przy obliczaniu zmian odchyleń. Dlatego modele Bernoulliego i dwumianowej logistycznej regresji dają identyczne zmiany odchylenia, pod warunkiem, że przewidywane prawdopodobieństwa pij i pi są takie same. W rzeczywistości dotyczy to funkcji probit i innych funkcji łącza.
Niech lBm i lBf oznaczają wartości prawdopodobieństwa logarytmu z dopasowania modelu m i pełnego modelu f do danych Bernoulliego. Odchylenie jest wtedy
Chociaż wartość lBf wynosi zero dla danych binarnych, nie uprościliśmy bazy danych i nie zachowaliśmy jej w niezmienionej postaci. Odchylenie od dwumianowego modelowania z tymi samymi zmiennymi towarzyszącymi jest
gdzie lbf + Ex i lbm + Ex są wartościami logarytmu prawdopodobieństwa dla modeli pełnego im dopasowanych do danych dwumianowych. Dodatkowy stały składnik (Ex) zniknął z prawej strony Db. Spójrzmy teraz na zmianę odchyleń od Modelu 1 na Model 2. Od modelowania Bernoulli mamy zmiany w odchyleniu
Podobnie zmiana odchylenia od dopasowania dwumianowego jest
Natychmiast wynika, że zmiany dewiacji są wolne od wkładu prawdopodobieństwa logarytmicznego z pełnych modeli, IBF i IBF. Dlatego otrzymamy tę samą zmianę dewiacji, DBC = DbC, jeśli lBm1 = lbm1 i lBm2 = lbm2. Wiemy, że tak jest w tym przypadku i dlatego otrzymujemy te same zmiany odchyleń od Bernoulliego i modelowania dwumianowego. Różnica między lbf i lbf prowadzi do różnych odchyleń.
źródło