Dziękuję za interesujące pytanie!
Różnica: jednym ograniczeniem standardowych modeli zliczania jest to, że zakłada się, że zera i nonzery (pozytywy) pochodzą z tego samego procesu generowania danych. W przypadku modeli przeszkód te dwa procesy nie muszą być takie same. Podstawową ideą jest to, że prawdopodobieństwo Bernoulliego rządzi binarnym wynikiem tego, czy zmienna liczenia ma zerową czy pozytywną realizację. Jeśli realizacja jest dodatnia, przeszkoda jest przekraczana, a warunkowy rozkład pozytywów jest regulowany przez model danych zliczania skróconego przy zeru. Z modelami o zerowym napełnieniu, zmienna odpowiedzi jest modelowana jako mieszanina rozkładu Bernoulliego (lub nazwij ją masą punktową przy zera) i rozkładu Poissona (lub dowolnego innego rozkładu zliczeń obsługiwanego na liczbach całkowitych nieujemnych). Aby uzyskać więcej szczegółów i formuł, patrz na przykład Gurmu i Trivedi (2011) oraz Dalrymple, Hudson i Ford (2003).
Przykład: modele przeszkód mogą być motywowane sekwencyjnymi procesami decyzyjnymi konfrontowanymi przez jednostki. Najpierw decydujesz, czy musisz coś kupić, a następnie decydujesz o ilości tego czegoś (co musi być dodatnie). Kiedy możesz (lub potencjalnie) nic nie kupić po podjęciu decyzji o zakupie czegoś, jest to przykład sytuacji, w której odpowiedni jest model z zerowym napełnieniem. Zera mogą pochodzić z dwóch źródeł: a) brak decyzji o zakupie; b) chciał kupić, ale ostatecznie nic nie kupił (np. brak w magazynie).
Beta: Model przeszkód jest szczególnym przypadkiem dwuczęściowego modelu opisanego w rozdziale 16 Frees (2011). Tam zobaczymy, że w modelach dwuczęściowych ilość wykorzystywanej opieki zdrowotnej może być zmienną ciągłą, a także zmienną zliczającą. To, co w literaturze zostało nieco myląco nazwane „zerowym napompowaniem beta”, w rzeczywistości należy do klasy dwuczęściowych rozkładów i modeli (tak powszechnych w nauce aktuarialnej), co jest zgodne z powyższą definicją modelu przeszkód . Ta doskonała książka omawiała modele z zerowym napełnieniem w sekcji 12.4.1 i modele przeszkód w sekcji 12.4.2, ze wzorami i przykładami z zastosowań aktuarialnych.
Historia: modele Poissona z zerowym napełnieniem (ZIP) bez współzmiennych mają długą historię (patrz np. Johnson i Kotz, 1969). Ogólna forma modeli regresji ZIP zawierających zmienne towarzyszące wynika z Lambert (1992). Modele przeszkód zostały po raz pierwszy zaproponowane przez kanadyjskiego statystyki Cragga (1971), a następnie rozwinięte przez Mullahy (1986). Możesz także rozważyć Croston (1972), w którym dodatnie liczby geometryczne są używane wraz z procesem Bernoulliego do opisania procesu o wartości całkowitej zdominowanej przez zera.
R: Wreszcie, jeśli używasz R, istnieje pakiet pscl dla „Klasy i metody dla R opracowane w Political Science Computational Laboratory” Simona Jackmana, zawierający funkcje hurdle () i zeroinfl () Achima Zeileisa.
Aby uzyskać powyższe informacje, skonsultowano następujące referencje:
- Gurmu, S. i Trivedi, PK Nadmiar zer w modelach liczenia dla wycieczek rekreacyjnych Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Rozkłady w statystyce: rozkłady dyskretne. 1969, Houghton MiZin, Boston
- Lambert, D., Zero napompowana regresja Poissona z zastosowaniem do wad produkcyjnych. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Niektóre modele statystyczne dla zmiennych zmiennych zależnych z zastosowaniem do popytu na towary trwałe Ekonometryczne, 1971, 39, 829-844
- Mullahy, J. Specyfikacja i testowanie niektórych zmodyfikowanych modeli danych zliczających Journal of Econometrics, 1986, 33, 341-365
- Frees, EW Regression Modeling with Actuarial and Financial Applications Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, Zero-inflated Poisson and Hurdle modele with application to SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
- Croston, JD Prognozy i kontrola zapasów dla okresowych badań operacyjnych Badania kwartalne, 1972, 23, 289-303
Modele z przeszkodami zakładają, że istnieje tylko jeden proces, w którym można wytworzyć zero, natomiast modele z nadciśnieniem zerowym zakładają, że istnieją 2 różne procesy, które mogą wytworzyć zero.
Modele z przeszkodami zakładają 2 rodzaje przedmiotów: (1) tych, którzy nigdy nie doświadczają wyniku i (2) tych, którzy zawsze doświadczają wyniku co najmniej raz. Modele o zerowym napompowaniu konceptualizują podmioty jako (1) tych, którzy nigdy nie doświadczają rezultatu i (2) tych, którzy mogą doświadczyć wyniku, ale nie zawsze.
Mówiąc najprościej: zarówno modele z zerowym napełnieniem, jak i z przeszkodami są opisane w dwóch częściach.
Pierwsza to część włączająca, która jest procesem binarnym. System jest „wyłączony” z prawdopodobieństwem i „włączony” z prawdopodobieństwem . (W tym przypadku jest znane jako prawdopodobieństwo inflacji.) Gdy system jest „wyłączony”, możliwe są tylko zliczenia zerowe. Ta część jest taka sama dla modeli z napompowaniem zerowym i przeszkodą.1 - π ππ 1−π π
Druga część to część zliczająca, która występuje, gdy system jest „włączony”. Tutaj różnią się modele z zerowym napełnieniem i przeszkodą. W modelach z zerowym napełnieniem liczby mogą nadal wynosić zero. W modelach przeszkodowych muszą być niezerowe. W tej części modele z zerowym napełnieniem stosują „zwykły” dyskretny rozkład prawdopodobieństwa, podczas gdy modele przeszkodowe wykorzystują funkcję dyskretnego rozkładu zera skróconego do zera.
Przykład modelu przeszkody: producent samochodów chce porównać dwa programy kontroli jakości swoich samochodów. Porównuje je na podstawie liczby zgłoszonych roszczeń gwarancyjnych. Dla każdego programu śledzony jest zestaw losowo wybranych klientów przez 1 rok i liczona jest liczba zgłoszonych roszczeń gwarancyjnych. Prawdopodobieństwa inflacyjne dla każdego z dwóch programów są następnie porównywane. Stan „wyłączony” to „zgłoszenie zerowe roszczeń”, natomiast stan „włączony” to „zgłoszenie co najmniej jednego roszczenia”.
Przykład modelu z zerowym napełnieniem: W tym samym badaniu powyżej naukowcy odkryli, że niektóre naprawy samochodów zostały naprawione bez zgłoszenia roszczenia gwarancyjnego. W ten sposób zera są mieszanką braku problemów z kontrolą jakości, jak również obecności problemów z kontrolą jakości, które nie wiązały się z roszczeniami gwarancyjnymi. Stan „wyłączony” oznacza „zgłoszenie zerowe roszczeń”, podczas gdy stan „włączony” oznacza „złożony co najmniej jedno roszczenie LUB naprawiono naprawy bez zgłoszenia roszczenia”.
Zobacz tutaj badanie, w którym oba typy modeli zastosowano do tego samego zestawu danych.
źródło
w modelu ZIP ~ 0 z prawdopodobieństwem i ~ Rozkład Poissona ( ) z prawdopodobieństwem , a zatem model ZIP jest modelem mieszanym z 2 składnikami i:yi π yi λ 1−π
oraz w modelu przeszkodowym ~ 0 z prawdopodobieństwem i ~ obciętym rozkładem Poissona ( ) z prawdopodobieństwem , i:yi π yi λ 1−π
źródło
Jeśli chodzi o modele przeszkód, oto cytat z Postępów w modelowaniu matematycznym i statystycznym (Arnold, Balakrishnan, Sarabia i Mínguez, 2008):
Jeśli chodzi o modele z zerowym napełnieniem, Wikipedia mówi :
Z Arnolda i współpracowników (2008) widzę, że model z przeszkodą zerową jest szczególnym przypadkiem bardziej ogólnej klasy modeli z przeszkodą, ale z odniesienia na Wikipedii ( Hall, 2004 ) również widzę, że niektóre zera napompowane modele mogą być ograniczone. Nie do końca rozumiem różnicę w formułach, ale wydają się one dość podobne (oba wykorzystują nawet bardzo podobny przykład, roszczenia ubezpieczeniowe). Mam nadzieję, że inne odpowiedzi pomogą wyjaśnić każdą ważną różnicę (-y) i że ta odpowiedź pomoże przygotować grunt pod te różnice.
Referencje Wikipedii:
źródło