Miara „dewiacji” dla zerowo napompowanego Poissona czy napompowanego zerowo dwumianu?

Skalowane odchylenie, zdefiniowane jako D = 2 * (logarytmiczne prawdopodobieństwo modelu nasyconego minus logarytmiczne prawdopodobieństwo modelu dopasowanego), jest często stosowane jako miara dobroci dopasowania w modelach GLM. Wyjaśnione procentowe odchylenie, zdefiniowane jako [D (model zerowy) - D (model dopasowany)] / D (model zerowy), jest również czasami używane jako analog GLM do kwadratu R regresji liniowej. Oprócz faktu, że rozkłady ZIP i ZINB nie są częścią wykładniczej rodziny rozkładów, mam problem ze zrozumieniem, dlaczego skalowane odchylenie i procent odchylenia wyjaśnionego nie są używane w modelowaniu z zerowym zawyżeniem. Czy ktoś może rzucić na to trochę światła lub podać pomocne referencje? Z góry dziękuję!

goodness-of-fit zero-inflation deviance aleanjeo
źródło

bardzo dobre pytanie - chciałbym to również wiedzieć

użytkownik2673238

Odchylenie jest koncepcją GLM, modele ZIP i ZINB nie są glms, ale są sformułowane jako skończone mieszanki rozkładów, które są GLM i dlatego można je łatwo rozwiązać za pomocą algorytmu EM.

Te notatki zwięźle opisują teorię dewiacji. Po przeczytaniu tych notatek zobaczysz dowód na to, że model nasycony dla regresji Poissona ma logarytmiczne prawdopodobieństwo

ℓ (λ_{s}) = \sum_{i = 1, \forall y_{i} \neq 0}^{n} [y_{i} l o g (y_{i}) - y_{i} - l o g (y_{i}!)]

$\ell(\lambda_s)= \sum_{i=1, \forall y_i\neq 0}^n \left[ y_ilog(y_i)-y_i -log(y_i!)\right]$

co wynika z wtyczką szacunków . $y_i =\hat{\lambda}_i$

Przejdę teraz do prawdopodobieństwa ZIP, ponieważ matematyka jest prostsza, podobne wyniki dotyczą ZINB. Niestety w przypadku ZIP nie ma prostej relacji jak w Poissonie. Prawdopodobieństwo logarytmu obserwacji jest $i$

ℓ_{i} (ϕ, λ) = Z_{i} l o g (ϕ + (1 - ϕ) e^{- λ}) + (1 - Z_{i}) [- λ + y_{i} l o g (λ) - l o g (y_{i}!)] .

$\ell_i(\phi, \lambda)=Z_ilog(\phi+(1-\phi)e^{-\lambda})+ (1-Z_i)\left[-\lambda +y_ilog(\lambda) -log(y_i!)\right].$

nie są przestrzegane, tak aby rozwiązać ten problem, że trzeba wziąć pochodne cząstkowe WRT zarówno i ustaw równań na 0, a następnie rozwiązać za i . Trudności są tu wartości, mogą one wejść do lub do i nie jest możliwe bez zachowania które umieścić uwag do. Gdybyśmy jednak znali $Z_i$ $\lambda$ $\phi$ $\lambda$ $\phi$ $y_i=0$ $\hat{\lambda}$ $\hat{\phi}$ $Z_i$ $y_i=0$ $Z_i$ wartość nie potrzebowalibyśmy modelu ZIP, ponieważ nie mielibyśmy brakujących danych. Zaobserwowane dane odpowiadają prawdopodobieństwu „kompletnych danych” w formalizmie EM.

Jednym z rozwiązań, które mogą być uzasadnione jest do pracy z oczekiwaniem wrt kompletnych danych dziennika prawdopodobieństwa, , która usuwa i zastępuje z oczekiwaniem, jest częścią tego, co Algorytm EM oblicza (krok E) z najnowszymi aktualizacjami. Mi znany żaden literatury badał to podejście do odchyleniem chociaż. $Z_i$ $\mathbb{E}(\ell_i(\phi, \lambda))$ $Z_i$ $expected$

Również to pytanie zostało zadane jako pierwsze, więc odpowiedziałem na ten post. Istnieje jednak inne pytanie na ten sam temat z ładnym komentarzem Gordona Smytta: dewiacja dla złożonego modelu Poissona o zerowym napełnieniu, ciągłe dane (R), w których wspomniał o tej samej odpowiedzi (jest to opracowanie tego komentarza powiedzmy) oraz wspomnieli w komentarzach do drugiego postu artykuł, który możesz chcieć przeczytać. (zrzeczenie się, nie przeczytałem referatu, do którego się odwołuje)

Lucas Roberts
źródło

Miara „dewiacji” dla zerowo napompowanego Poissona czy napompowanego zerowo dwumianu?

Odpowiedzi: