Kiedy stosować dane GLM Poissona vs. geometryczne vs. ujemne dwumianowe?

21

Staram się układać dla siebie, gdy właściwe jest użycie typu regresji (geometrycznej, Poissona, dwumianu ujemnego) z danymi zliczania w ramach GLM (tylko 3 z 8 rozkładów GLM są używane do danych zliczania, chociaż większość z tego Czytałem centra wokół ujemnych rozkładów dwumianowych i Poissona).

Kiedy stosować dane GLM Poissona vs. geometryczne vs. ujemne dwumianowe?


Do tej pory mam następującą logikę: czy zliczają dane? Jeśli tak, czy średnia i wariancja są nierówne? Jeśli tak, ujemna regresja dwumianowa. Jeśli nie, regresja Poissona. Czy inflacja jest zerowa? Jeśli tak, zero napompowane Poissona lub zero napompowane ujemne dwumianowe.

Pytanie 1: Wydaje się, że nie ma wyraźnego wskazania, z którego z nich korzystać. Czy jest coś, co może wpłynąć na tę decyzję? Z tego, co rozumiem, po przejściu na ZIP, średnia wariancja będąca równym założeniem zostaje złagodzona, więc znów jest podobna do NB.

Pytanie 2 Gdzie mieści się rodzina geometryczna w tym pytaniu lub jakie pytania powinienem zadawać w związku z danymi przy podejmowaniu decyzji, czy użyć rodziny geometrycznej w regresji?

Pytanie 3 Widzę ludzi, którzy cały czas wymieniają ujemne rozkłady dwumianowe i Poissona, ale nie geometryczne, więc zgaduję, że jest coś wyraźnie innego w tym, kiedy go użyć. Jeśli tak, co to jest?

PS Zrobiłem (prawdopodobnie zbyt uproszczony, z komentarzy) diagram ( edytowalny ) mojego obecnego zrozumienia, jeśli ludzie chcą komentować / poprawiać go do dyskusji. Policz dane: Drzewo decyzyjne GLM

timothy.s.lau
źródło
Znam tylko programowanie w języku R, ale mam nadzieję, że ta pomoc ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu
@RYOENG, widziałem to i nałożyłem różnicę opisaną w moim pytaniu na drzewo logiczne. Szczególnie interesuje mnie mniej dyskutowany dystans, a mianowicie geometryczny dystans.
timothy.s.lau
(AKTUALIZACJA) Odpowiedź Nicka Coxa tutaj: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms wydaje się skapitalizować sentyment, który do tej pory szukałem, „Trudno jest określić, kiedy używać go poza pustą odpowiedzią, ilekroć działa najlepiej ”
timothy.s.lau,
@Glen_b dobry połów, zaktualizowałem logikę.
timothy.s.lau,
Prawdopodobnie jesteś bezpieczny, usuwając akapit o byciu zagłuszonym również przez mody.
Glen_b

Odpowiedzi:

12

μ+1/θμ2)μθα=1/θθ=θ=1

θ

Oczywiście istnieje również mnóstwo innych rozkładów danych zliczających jedno- lub wieloparametrowych (w tym wspomniany złożony Poisson), które czasami mogą, ale nie muszą, prowadzić do znacznie lepszych dopasowań.

Jeśli chodzi o zera zerowe: dwie standardowe strategie polegają albo na zastosowaniu zliczanego zera rozkładu danych zliczania, albo z modelu przeszkód składającego się z modelu binarnego dla zera lub większego oraz z modelu danych z obciętym zerem. Jak wspomniałeś, nadwyżki zerowe i nadmierna dyspersja mogą być mylące, ale często znaczna nadmierna dyspersja utrzymuje się nawet po dostosowaniu modelu do nadmiernych zer. Ponownie, w razie wątpliwości, zaleciłbym stosowanie modelu zerowej inflacji lub przeszkody opartej na NB według tej samej logiki jak powyżej.

Oświadczenie: Jest to bardzo krótki i prosty przegląd. Przy stosowaniu modeli w praktyce polecam zajrzeć do podręcznika na ten temat. Osobiście lubię książki danych hrabiów Winkelmann i Cameron & Trivedi. Ale są też inne dobre. W przypadku dyskusji opartej na R możesz również polubić nasz artykuł w JSS ( http://www.jstatsoft.org/v27/i08/ ).

Achim Zeileis
źródło
4
μ+μ2>μ
3
μ
3
Jak mogłeś powiedzieć na podstawie moich wcześniejszych komentarzy: Nie jestem fanem takich uproszczonych schematów blokowych. Aby wybrać dobry model, należy zrozumieć związki między modelami i ich związek z praktycznym zastosowaniem. To, czy interesuje Cię geometria, zależy od posiadanego przypadku aplikacji. Podobnie w przypadku zerowej inflacji vs. przeszkody (którą pominąłeś na wykresie). Wreszcie kolejność pytań niekoniecznie jest taka sama dla wszystkich aplikacji itp.
Achim Zeileis,
2
Rozumiem, że mój szkic wydaje się nieco uproszczony. Ale dla studentów przedmiotów ścisłych nie jest rzadkością rozpoczynanie od schematów dość uproszczonych, jeśli uczestniczyłeś w zajęciach z fizyki, wiesz, jak często zmieniają i łamią „reguły”, których wcześniej się nauczyłeś, które są podstawą późniejszych fachowe i dopracowane rozumienie. Więc dla nauki, jestem absolwentem, po prostu starałem się uzyskać bardziej „poprawne” zrozumienie podstaw, które mogę zbudować później, np. Przeszkód itp. Dzięki za referencje BTW, zbadam podręczniki wspomniałeś tak samo jak swój artykuł.
timothy.s.lau,
1
Myślę, że quasi-NB niewiele by dodało do quasi-Poissona. Masz tę samą średnią funkcjęlog(μja)=xjaβa także rezygnujecie z prawdopodobieństwa (tj. macie tylko średni model, ale nie model probabilistyczny). Jedyna różnica polega na tym, że w przypadku NB2 masz nieco inną funkcję wariancji, podczas gdy NB1 miałby nawet tę samą funkcję wariancji. Dlatego moim zaleceniem byłoby po prostu użycie quasi-Poissona dla modelu regresji średniej - i zacząć od NB, jeśli chcę mieć model regresji probabilistycznej.
Achim Zeileis,