Próbuję modelować dane zliczania w R, które najwyraźniej są rozproszone (parametr dyspersji ~ .40). Prawdopodobnie dlatego model glm
z family = poisson
lub ujemny glm.nb
model dwumianowy ( ) nie są znaczące. Kiedy patrzę na opisy moich danych, nie mam typowego skosu danych zliczania, a reszty w moich dwóch warunkach eksperymentalnych są również jednorodne.
Więc moje pytania to:
Czy muszę nawet stosować specjalne analizy regresji dla moich danych zliczania, jeśli moje dane zliczania tak naprawdę nie zachowują się jak dane zliczania? Czasami spotykam się z nienormalnością (zwykle z powodu kurtozy), ale użyłem metody percentyla bootstrap do porównania przyciętych środków (Wilcox, 2012), aby uwzględnić nienormalność. Czy metody liczenia danych można zastąpić dowolną niezawodną metodą zasugerowaną przez Wilcox i zrealizowaną w pakiecie WRS?
Jeśli muszę użyć analiz regresji dla danych zliczania, jak mogę uwzględnić niedostateczne rozproszenie? Rozkład Poissona i ujemny rozkład dwumianowy zakładają większe rozproszenie, więc nie powinno to być właściwe, prawda? Myślałem o zastosowaniu rozkładu quasi-Poissona , ale zwykle jest to zalecane w przypadku nadmiernej dyspersji. Czytałem o modelach dwumianowych , które wydają się być w stanie uwzględnić nadmierną lub niską dyspersję, są dostępne w
VGAM
pakiecie R. Autorzy wydają się jednak zalecać złudną dystrybucję Poissona , ale nie mogę jej znaleźć w pakiecie .
Czy ktoś może polecić procedurę dla danych o niskiej rozproszeniu i może podać przykładowy kod R?
Odpowiedzi:
Najlepszym --- i standardowym sposobem radzenia sobie z rozproszonymi danymi Poissona jest użycie uogólnionego modelu Poissona lub modelu przeszkodowego. Modele zliczania trzech parametrów mogą być również stosowane do danych o niskiej rozproszeniu; np. Faddy-Smith, Waring, Famoye, Conway-Maxwell i inne uogólnione modele zliczania. Jedyną wadą tych elementów jest ich interpretowalność. Ale w przypadku danych ogólnie mało rozproszonych należy użyć uogólnionego Poissona. To jest jak dwumian ujemny dla danych rozproszonych. Omawiam to bardziej szczegółowo w dwóch moich książkach, Modeling Count Data (2014) i Negative Binomial Regression, 2. wydanie, (2011), oba przez Cambridge University Press. W wersji R pakiet VGAM umożliwia uogólnioną regresję Poissona (GP). Ujemne wartości parametru dyspersji wskazują na dostosowanie do niskiej dyspersji. Modelu GP można również używać do przesadzania danych, ale ogólnie model NB jest lepszy. Jeśli chodzi o to, najlepiej ustalić przyczynę niedystrybucji, a następnie wybrać najbardziej odpowiedni model, aby sobie z tym poradzić.
źródło
Spotkałem kiedyś rozproszonego Poissona, który miał związek z częstotliwością, z jaką ludzie grali w grę społeczną. Okazało się, że było to spowodowane niezwykłą regularnością, z jaką ludzie będą grać w piątki. Usunięcie danych z piątku dało mi oczekiwany rozproszony Poisson. Być może masz możliwość podobnej edycji swoich danych.
źródło
Zdarzają się sytuacje, w których niedystrybucja łączy się z inflacją zerową, co jest typowe dla preferowanych dzieci przez osoby obu płci. Do tej pory nie znalazłem sposobu na uchwycenie tego
źródło