Zero zawyżonych dystrybucji, czym one są naprawdę?

15

Próbuję zrozumieć zerowe zawyżone rozkłady. Czym oni są? Jaki jest sens?

Jeśli mam dane z wieloma zerami, to mógłbym dopasować regresję logistyczną, najpierw obliczyć prawdopodobieństwo zer, a następnie mógłbym usunąć wszystkie zera, a następnie dopasować regresję regularną, używając mojego wyboru rozkładu (np. Poissona).

Potem ktoś powiedział mi: „hej, użyj zerowej napompowanej dystrybucji”, ale patrząc na to, nie wydaje się, że robi to inaczej niż to, co zasugerowałem powyżej? Ma regularny parametr , a następnie inny parametr p, aby modelować prawdopodobieństwo zera? Po prostu robi obie rzeczy w tym samym czasie nie?μp

Calro
źródło
3
Dlaczego usuwasz wszystkie zera? możesz to zrobić razem, najpierw obliczysz prawdopodobieństwo 0 i 1 i użyjesz tego jako ciężaru do rozkładu Poissona, który jest modelem nadmuchanym zerowo (rozkładem). Przeczytaj to, jest całkiem jasne pl.wikipedia.org/wiki/Zero-inflated_model
Deep North

Odpowiedzi:

13

dopasuj regresję logistyczną najpierw obliczyć prawdopodobieństwo zer, a następnie mógłbym usunąć wszystkie zera, a następnie dopasować regresję regularną, używając mojego wyboru rozkładu (np. poissona)

Masz całkowitą rację. Jest to jeden ze sposobów dopasowania modelu z zerowym napełnieniem (lub, jak zauważa Achim Zeileis w komentarzach, jest to ściśle „model przeszkodowy”, który można uznać za szczególny przypadek modelu z zerowym napełnieniem).

Różnica między opisaną procedurą a modelem „nadmuchiwanego zera” jest propagacją błędów. Podobnie jak wszystkie inne dwustopniowe procedury w statystyce, ogólna niepewność twoich prognoz w kroku 2 nie uwzględni niepewności, czy prognoza powinna wynosić 0 czy nie.

Czasami jest to zło konieczne. Na szczęście w tym przypadku nie jest to konieczne. W R możesz użyć pscl::hurdle()lub fitdistrplus::fitdist().

Shadowtalker
źródło
czy możesz wyjaśnić to „ogólna niepewność twoich prognoz w kroku 2 nie uwzględni niepewności, czy prognoza powinna wynosić 0 czy nie”? Kiedy robisz Zip Poissona, pomnożysz prawdopodobieństwo pierwszej części do funkcji prawdopodobieństwa modelu Poissona, dlatego krok 2 uwzględni niepewność 0 lub 1.
Głęboka północ
1
P(Y=1|X=x)=0.510.51
3
@ssdecontrol Zwykle nie jest to nazywane modelem z napompowaniem zerowym, ale modelem przeszkodowym (np pscl::hurdle().). Aby uzyskać odpowiednie dopasowanie, rozkład zastosowany dla danych bez zer powinien być obcinany przez zero (lub w ogóle nie powinien prowadzić do żadnych zer). Zobacz moją odpowiedź, aby uzyskać więcej informacji.
Achim Zeileis
9

Podstawową ideą, którą opisujesz, jest prawidłowe podejście i często nazywa się ją modelem przeszkody (lub modelem dwuczęściowym), a nie modelem z napompowaniem zerowym .

Jednak niezwykle ważne jest, aby model niezerowych danych zawierał usuwane zera. Jeśli dopasujesz model Poissona do danych bez zer, prawie na pewno spowoduje to słabe dopasowanie, ponieważ rozkład Poissona zawsze ma dodatnie prawdopodobieństwo zerowe. Naturalną alternatywą jest zastosowanie zerowego rozkładu Poissona, który jest klasycznym podejściem do regresji przeszkód dla danych zliczania.

Główną różnicą między modelami o napompowaniu zerowym a modelami przeszkodowymi jest to, które prawdopodobieństwo jest modelowane w binarnej części regresji. W przypadku modeli przeszkodowych jest to po prostu prawdopodobieństwo zera vs. niezerowe. W modelach z nadciśnieniem zerowym istnieje prawdopodobieństwo nadwyżki zera , tzn. Prawdopodobieństwo zera, które nie jest spowodowane rozkładem bez nadmuchania (np. Poissona).

Omówienie modeli przeszkód i zerowej inflacji dla danych zliczania w R można znaleźć w naszym manuskrypcie opublikowanym w JSS, a także dostarczonym jako winieta do psclpakietu: http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
źródło
7

To, co powiedział ssdecontrol, jest bardzo poprawne. Ale chciałbym dodać kilka centów do dyskusji.

Właśnie obejrzałem wykład na temat modeli zerowego nadmuchiwania dla danych zliczania autorstwa Richarda McElreath na YouTube.

Sensowne jest oszacowanie p przy jednoczesnym kontrolowaniu zmiennych wyjaśniających szybkość czystego modelu Poissona, szczególnie jeśli weźmie się pod uwagę, że szansa, że ​​zaobserwowane zero powstanie z rozkładu Poissona, nie wynosi 100%.

Zero napompowane rozkłady jako model wielopoziomowy

Ma to również sens, gdy weźmie się pod uwagę parametry modelu, ponieważ uzyskuje się dwie zmienne do oszacowania, p i współczynnik modelu Poissona oraz dwa równania, przypadek, gdy liczba jest zerowa i przypadek, gdy liczba jest różna od zero.

Źródło obrazu: Refleksja statystyczna - kurs bayesowski z przykładami w R i Stanie autorstwa Richarda McElreath

Edycja : literówka

Guilherme Marthe
źródło
Docenia się odniesienia do materiałów edukacyjnych ... ale jak to odpowiada na pytanie? To wygląda jak komentarz opublikowany jako odpowiedź ...
RTbecard