Jaka jest różnica między modelami z napompowaniem zerowym a przeszkodą?

81

Zastanawiam się, czy istnieje wyraźna różnica między tak zwanymi rozkładami o zerowym napompowaniu (modele) a tak zwanymi rozkładami o zerowym napompowaniu (modele)? Terminy występują dość często w literaturze i podejrzewam, że nie są takie same, ale czy mógłbyś wyjaśnić mi różnicę w prostych słowach?

skulker
źródło

Odpowiedzi:

80

Dziękuję za interesujące pytanie!

Różnica: jednym ograniczeniem standardowych modeli zliczania jest to, że zakłada się, że zera i nonzery (pozytywy) pochodzą z tego samego procesu generowania danych. W przypadku modeli przeszkód te dwa procesy nie muszą być takie same. Podstawową ideą jest to, że prawdopodobieństwo Bernoulliego rządzi binarnym wynikiem tego, czy zmienna liczenia ma zerową czy pozytywną realizację. Jeśli realizacja jest dodatnia, przeszkoda jest przekraczana, a warunkowy rozkład pozytywów jest regulowany przez model danych zliczania skróconego przy zeru. Z modelami o zerowym napełnieniu, zmienna odpowiedzi jest modelowana jako mieszanina rozkładu Bernoulliego (lub nazwij ją masą punktową przy zera) i rozkładu Poissona (lub dowolnego innego rozkładu zliczeń obsługiwanego na liczbach całkowitych nieujemnych). Aby uzyskać więcej szczegółów i formuł, patrz na przykład Gurmu i Trivedi (2011) oraz Dalrymple, Hudson i Ford (2003).

Przykład: modele przeszkód mogą być motywowane sekwencyjnymi procesami decyzyjnymi konfrontowanymi przez jednostki. Najpierw decydujesz, czy musisz coś kupić, a następnie decydujesz o ilości tego czegoś (co musi być dodatnie). Kiedy możesz (lub potencjalnie) nic nie kupić po podjęciu decyzji o zakupie czegoś, jest to przykład sytuacji, w której odpowiedni jest model z zerowym napełnieniem. Zera mogą pochodzić z dwóch źródeł: a) brak decyzji o zakupie; b) chciał kupić, ale ostatecznie nic nie kupił (np. brak w magazynie).

Beta: Model przeszkód jest szczególnym przypadkiem dwuczęściowego modelu opisanego w rozdziale 16 Frees (2011). Tam zobaczymy, że w modelach dwuczęściowych ilość wykorzystywanej opieki zdrowotnej może być zmienną ciągłą, a także zmienną zliczającą. To, co w literaturze zostało nieco myląco nazwane „zerowym napompowaniem beta”, w rzeczywistości należy do klasy dwuczęściowych rozkładów i modeli (tak powszechnych w nauce aktuarialnej), co jest zgodne z powyższą definicją modelu przeszkód . Ta doskonała książka omawiała modele z zerowym napełnieniem w sekcji 12.4.1 i modele przeszkód w sekcji 12.4.2, ze wzorami i przykładami z zastosowań aktuarialnych.

Historia: modele Poissona z zerowym napełnieniem (ZIP) bez współzmiennych mają długą historię (patrz np. Johnson i Kotz, 1969). Ogólna forma modeli regresji ZIP zawierających zmienne towarzyszące wynika z Lambert (1992). Modele przeszkód zostały po raz pierwszy zaproponowane przez kanadyjskiego statystyki Cragga (1971), a następnie rozwinięte przez Mullahy (1986). Możesz także rozważyć Croston (1972), w którym dodatnie liczby geometryczne są używane wraz z procesem Bernoulliego do opisania procesu o wartości całkowitej zdominowanej przez zera.

R: Wreszcie, jeśli używasz R, istnieje pakiet pscl dla „Klasy i metody dla R opracowane w Political Science Computational Laboratory” Simona Jackmana, zawierający funkcje hurdle () i zeroinfl () Achima Zeileisa.

Aby uzyskać powyższe informacje, skonsultowano następujące referencje:

  • Gurmu, S. i Trivedi, PK Nadmiar zer w modelach liczenia dla wycieczek rekreacyjnych Journal of Business & Economic Statistics, 1996, 14, 469-477
  • Johnson, N., Kotz, S., Rozkłady w statystyce: rozkłady dyskretne. 1969, Houghton MiZin, Boston
  • Lambert, D., Zero napompowana regresja Poissona z zastosowaniem do wad produkcyjnych. Technometrics, 1992, 34 (1), 1–14.
  • Cragg, JG Niektóre modele statystyczne dla zmiennych zmiennych zależnych z zastosowaniem do popytu na towary trwałe Ekonometryczne, 1971, 39, 829-844
  • Mullahy, J. Specyfikacja i testowanie niektórych zmodyfikowanych modeli danych zliczających Journal of Econometrics, 1986, 33, 341-365
  • Frees, EW Regression Modeling with Actuarial and Financial Applications Cambridge University Press, 2011
  • Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, Zero-inflated Poisson and Hurdle modele with application to SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
  • Croston, JD Prognozy i kontrola zapasów dla okresowych badań operacyjnych Badania kwartalne, 1972, 23, 289-303
Hibernacja
źródło
2
Czy zatem model przeszkód jest tak naprawdę „modelem”? A może działa na dwóch modelach i osobno szacowanych modelach? Wyobraź sobie modelowanie konkurencyjności ras wyborczych, patrząc na wyniki konkurencji (1 - margines zwycięstwa). Jest to ograniczone [0, 1), ponieważ nie ma żadnych powiązań (np. 1). Najpierw wykonujemy regresję logistyczną, aby przeanalizować 0 vs. (0, 1). Następnie wykonujemy regresję beta, aby przeanalizować przypadki (0, 1). Wygląda na to, że są to dwa zupełnie różne modele, z własnymi współczynnikami i osobnym oszacowaniem? A może coś mi brakuje?
Mark White
Na przykład w swojej odpowiedzi wspominasz, że zera mogą wynikać z (a) decyzji o nie kupowaniu samochodu lub (b) chęci, ale nie było go w magazynie. Wygląda na to, że model przeszkód nie byłby w stanie rozróżnić tych dwóch, ponieważ są one wykonywane sekwencyjnie ...?
Mark White
Rozważmy inny przykład: odpowiedzi wynoszą [1, 7], podobnie jak tradycyjna skala Likerta, z ogromnym efektem pułapu na poziomie 7. Można zrobić model przeszkody, w którym regresja logistyczna wynosi [1, 7) vs. 7, a następnie regresja Tobita dla wszystkich przypadków, w których zaobserwowane odpowiedzi są mniejsze niż 7. Ponownie otrzymujemy dwa zestawy współczynników regresji i są one szacowane osobno. Wydaje się, że nie modelujemy tych procesów wspólnie, ale w dwóch całkowicie różnych modelach? Czy przeszkodą jest w rzeczywistości model, czy tylko proces robienia dwóch różnych rodzajów uogólnionych modeli liniowych pod rząd?
Mark White
Rozszerzyłem to pytanie w swoim własnym poście tutaj: stats.stackexchange.com/questions/320924/...
Mark White
47

Modele z przeszkodami zakładają, że istnieje tylko jeden proces, w którym można wytworzyć zero, natomiast modele z nadciśnieniem zerowym zakładają, że istnieją 2 różne procesy, które mogą wytworzyć zero.

Modele z przeszkodami zakładają 2 rodzaje przedmiotów: (1) tych, którzy nigdy nie doświadczają wyniku i (2) tych, którzy zawsze doświadczają wyniku co najmniej raz. Modele o zerowym napompowaniu konceptualizują podmioty jako (1) tych, którzy nigdy nie doświadczają rezultatu i (2) tych, którzy mogą doświadczyć wyniku, ale nie zawsze.

Mówiąc najprościej: zarówno modele z zerowym napełnieniem, jak i z przeszkodami są opisane w dwóch częściach.

Pierwsza to część włączająca, która jest procesem binarnym. System jest „wyłączony” z prawdopodobieństwem i „włączony” z prawdopodobieństwem . (W tym przypadku jest znane jako prawdopodobieństwo inflacji.) Gdy system jest „wyłączony”, możliwe są tylko zliczenia zerowe. Ta część jest taka sama dla modeli z napompowaniem zerowym i przeszkodą.1 - π ππ1ππ

Druga część to część zliczająca, która występuje, gdy system jest „włączony”. Tutaj różnią się modele z zerowym napełnieniem i przeszkodą. W modelach z zerowym napełnieniem liczby mogą nadal wynosić zero. W modelach przeszkodowych muszą być niezerowe. W tej części modele z zerowym napełnieniem stosują „zwykły” dyskretny rozkład prawdopodobieństwa, podczas gdy modele przeszkodowe wykorzystują funkcję dyskretnego rozkładu zera skróconego do zera.

Przykład modelu przeszkody: producent samochodów chce porównać dwa programy kontroli jakości swoich samochodów. Porównuje je na podstawie liczby zgłoszonych roszczeń gwarancyjnych. Dla każdego programu śledzony jest zestaw losowo wybranych klientów przez 1 rok i liczona jest liczba zgłoszonych roszczeń gwarancyjnych. Prawdopodobieństwa inflacyjne dla każdego z dwóch programów są następnie porównywane. Stan „wyłączony” to „zgłoszenie zerowe roszczeń”, natomiast stan „włączony” to „zgłoszenie co najmniej jednego roszczenia”.

Przykład modelu z zerowym napełnieniem: W tym samym badaniu powyżej naukowcy odkryli, że niektóre naprawy samochodów zostały naprawione bez zgłoszenia roszczenia gwarancyjnego. W ten sposób zera są mieszanką braku problemów z kontrolą jakości, jak również obecności problemów z kontrolą jakości, które nie wiązały się z roszczeniami gwarancyjnymi. Stan „wyłączony” oznacza „zgłoszenie zerowe roszczeń”, podczas gdy stan „włączony” oznacza „złożony co najmniej jedno roszczenie LUB naprawiono naprawy bez zgłoszenia roszczenia”.

Zobacz tutaj badanie, w którym oba typy modeli zastosowano do tego samego zestawu danych.

Darren James
źródło
Dziękuję za szczegółową odpowiedź. Czy miałbyś pogląd na temat właściwej terminologii dla standardowej dystrybucji beta z dodanymi zerami? Korzystanie z definicji modeli zerowej zawyżone, jest niewątpliwie jednym źródłem zerami, więc nie można nazwać zero-napompowane ... Zobacz tę dyskusję stats.stackexchange.com/questions/81343/...
skulker
2
Lubię „zerową dystrybucję beta”, jak sugeruje @Hibernating
Darren James
10

w modelu ZIP ~ 0 z prawdopodobieństwem i ~ Rozkład Poissona ( ) z prawdopodobieństwem , a zatem model ZIP jest modelem mieszanym z 2 składnikami i: yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

oraz w modelu przeszkodowym ~ 0 z prawdopodobieństwem i ~ obciętym rozkładem Poissona ( ) z prawdopodobieństwem , i: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1
Marzieh
źródło
4

Jeśli chodzi o modele przeszkód, oto cytat z Postępów w modelowaniu matematycznym i statystycznym (Arnold, Balakrishnan, Sarabia i Mínguez, 2008):

Model przeszkody charakteryzuje się procesem poniżej przeszkody i powyższym. Oczywiście najczęściej stosowanym modelem przeszkód jest ten, który ustawia przeszkodę na zero. Formalnie model z przeszkodą zerową wyraża się jako: dla dlaP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

Zmienna może być interpretowana jako prawdopodobieństwo przekroczenia przeszkody, a dokładniej w przypadku ubezpieczenia, prawdopodobieństwo zgłoszenia co najmniej jednego roszczenia.ϕ

Jeśli chodzi o modele z zerowym napełnieniem, Wikipedia mówi :

Model z napompowaniem zerowym jest modelem statystycznym opartym na rozkładzie prawdopodobieństwa z napompowaniem zerowym, tj. Rozkładem umożliwiającym częste obserwacje o zerowej wartości.

Model Poissona z nadciśnieniem zerowym dotyczy zdarzenia losowego zawierającego nadmiar danych zerowych w jednostce czasu. Na przykład liczba roszczeń do firmy ubezpieczeniowej przez dowolną osobę objętą ubezpieczeniem wynosi prawie zawsze zero, w przeciwnym razie znaczne straty spowodowałyby upadłość firmy ubezpieczeniowej. Model Poissona z napompowaniem zerowym (ZIP) wykorzystuje dwa komponenty, które odpowiadają dwóm procesom generującym zero. Pierwszy proces jest zarządzany przez rozkład binarny, który generuje zera strukturalne. Drugi proces jest regulowany rozkładem Poissona, który generuje zliczenia, z których niektóre mogą wynosić zero. Dwa komponenty modelu opisano w następujący sposób:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
gdzie zmienna wynikowa ma dowolną nieujemną wartość całkowitą, jest oczekiwaną liczbą Poissona dla tej osoby; jest prawdopodobieństwem dodatkowych zer.yjλiiπ

Z Arnolda i współpracowników (2008) widzę, że model z przeszkodą zerową jest szczególnym przypadkiem bardziej ogólnej klasy modeli z przeszkodą, ale z odniesienia na Wikipedii ( Hall, 2004 ) również widzę, że niektóre zera napompowane modele mogą być ograniczone. Nie do końca rozumiem różnicę w formułach, ale wydają się one dość podobne (oba wykorzystują nawet bardzo podobny przykład, roszczenia ubezpieczeniowe). Mam nadzieję, że inne odpowiedzi pomogą wyjaśnić każdą ważną różnicę (-y) i że ta odpowiedź pomoże przygotować grunt pod te różnice.

Referencje Wikipedii:

  1. Lambert, D. (1992). Zero napompowana regresja Poissona z zastosowaniem do wad produkcyjnych. Technometrics, 34 (1), 1–14.
Nick Stauner
źródło