Staram się układać dla siebie, gdy właściwe jest użycie typu regresji (geometrycznej, Poissona, dwumianu ujemnego) z danymi zliczania w ramach GLM (tylko 3 z 8 rozkładów GLM są używane do danych zliczania, chociaż większość z tego Czytałem centra wokół ujemnych rozkładów dwumianowych i Poissona).
Kiedy stosować dane GLM Poissona vs. geometryczne vs. ujemne dwumianowe?
Do tej pory mam następującą logikę: czy zliczają dane? Jeśli tak, czy średnia i wariancja są nierówne? Jeśli tak, ujemna regresja dwumianowa. Jeśli nie, regresja Poissona. Czy inflacja jest zerowa? Jeśli tak, zero napompowane Poissona lub zero napompowane ujemne dwumianowe.
Pytanie 1: Wydaje się, że nie ma wyraźnego wskazania, z którego z nich korzystać. Czy jest coś, co może wpłynąć na tę decyzję? Z tego, co rozumiem, po przejściu na ZIP, średnia wariancja będąca równym założeniem zostaje złagodzona, więc znów jest podobna do NB.
Pytanie 2 Gdzie mieści się rodzina geometryczna w tym pytaniu lub jakie pytania powinienem zadawać w związku z danymi przy podejmowaniu decyzji, czy użyć rodziny geometrycznej w regresji?
Pytanie 3 Widzę ludzi, którzy cały czas wymieniają ujemne rozkłady dwumianowe i Poissona, ale nie geometryczne, więc zgaduję, że jest coś wyraźnie innego w tym, kiedy go użyć. Jeśli tak, co to jest?
PS Zrobiłem (prawdopodobnie zbyt uproszczony, z komentarzy) diagram ( edytowalny ) mojego obecnego zrozumienia, jeśli ludzie chcą komentować / poprawiać go do dyskusji.
źródło
Odpowiedzi:
Oczywiście istnieje również mnóstwo innych rozkładów danych zliczających jedno- lub wieloparametrowych (w tym wspomniany złożony Poisson), które czasami mogą, ale nie muszą, prowadzić do znacznie lepszych dopasowań.
Jeśli chodzi o zera zerowe: dwie standardowe strategie polegają albo na zastosowaniu zliczanego zera rozkładu danych zliczania, albo z modelu przeszkód składającego się z modelu binarnego dla zera lub większego oraz z modelu danych z obciętym zerem. Jak wspomniałeś, nadwyżki zerowe i nadmierna dyspersja mogą być mylące, ale często znaczna nadmierna dyspersja utrzymuje się nawet po dostosowaniu modelu do nadmiernych zer. Ponownie, w razie wątpliwości, zaleciłbym stosowanie modelu zerowej inflacji lub przeszkody opartej na NB według tej samej logiki jak powyżej.
Oświadczenie: Jest to bardzo krótki i prosty przegląd. Przy stosowaniu modeli w praktyce polecam zajrzeć do podręcznika na ten temat. Osobiście lubię książki danych hrabiów Winkelmann i Cameron & Trivedi. Ale są też inne dobre. W przypadku dyskusji opartej na R możesz również polubić nasz artykuł w JSS ( http://www.jstatsoft.org/v27/i08/ ).
źródło