Wybór alternatywy dla regresji Poissona dla danych zliczonych w rozproszeniu

12

Obecnie analizuję dane z serii eksperymentów behawioralnych, które wykorzystują następującą miarę. Uczestnicy tego eksperymentu proszeni są o wybranie wskazówek, które (fikcyjne) inne osoby mogłyby wykorzystać do rozwiązania serii 10 anagramów. Uczestnicy są przekonani, że ci inni ludzie albo zyskają, albo stracą pieniądze, w zależności od ich wyników w rozwiązywaniu anagramów. Wskazówki różnią się pod względem stopnia ich przydatności. Na przykład dla anagramu NUNGRIN, anagramu BIEGANIA, trzy wskazówki mogą być następujące:

  1. Poruszanie się szybko (nieprzydatne)
  2. Co robisz w maratonie (pomocne)
  3. Nie zawsze zdrowe hobby (nieprzydatne)

Aby utworzyć miarę, liczę, ile razy (z 10) uczestnik wybiera nieprzydatną wskazówkę dla drugiej osoby. W eksperymentach używam różnych manipulacji, aby wpłynąć na przydatność wskazówek, które wybierają ludzie.

Ponieważ miara przydatności / nieprzydatności jest dość silnie pozytywnie wypaczona (duża część ludzi zawsze wybiera 10 najbardziej pomocnych wskazówek), a ponieważ miarą jest zmienna zliczająca, do analizy tych danych używałem Uogólnionego Modelu Liniowego Poissona. Jednak, gdy trochę poczytałem o regresji Poissona, odkryłem, że ponieważ regresja Poissona nie szacuje niezależnie średniej i wariancji rozkładu, często nie docenia wariancji w zbiorze danych. Zacząłem badać alternatywy dla regresji Poissona, takie jak regresja quasipoissona lub regresja dwumianowa ujemna. Przyznaję jednak, że jestem raczej nowy w tego typu modelach, więc przychodzę tutaj po porady.

Czy ktoś ma jakieś zalecenia dotyczące tego, jakiego modelu użyć do tego rodzaju danych? Czy są jeszcze jakieś względy, o których powinienem wiedzieć (na przykład, czy jeden konkretny model ma większą moc niż inny?)? Jakiego rodzaju diagnostykę należy sprawdzić, aby ustalić, czy wybrany model odpowiednio obsługuje moje dane?

Patrick S. Forscher
źródło
Co powiesz na solidny estymator wariancji / kowariancji, który rozluźni założenie, że wariancja jest równa średniej?
boscovich
2
Ponieważ są to dane zliczające i nieujemne, co z modelem quassi-poissona lub ujemnym modelem regresji dwumianowej, który odpowiada za dyspersję?
Arun
1
Zastanawiałem się nad zastosowaniem modelu quasi-poissona lub modelu dwumianowego ujemnego, ale nie rozumiem, na jakiego rodzaju przekątności patrzeć, aby upewnić się, że odpowiednio modeluję swoje dane. Ponieważ istnieje kilka alternatyw (modele quasi-poissona, dwumianowy ujemny i modele z zerowym rozszerzeniem), zastanawiam się również, czy istnieje dobry sposób wyboru między tymi alternatywami. Na przykład, czy jedna metoda jest na ogół silniejsza niż inne?
Patrick S. Forscher
1
To zależy od danych. Dlaczego nie dopasujesz ich wszystkich do swoich danych (Poisson, ujemny dwumianowy, zero-napompowany Poisson i ujemny dwumianowy, modele przeszkodowe dla tych, których dotyczy pytanie) i porównasz je za pomocą powiedzmy, AIC lub BIC? Zobacz cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Następnie wybierz ten, który najlepiej pasuje do twoich danych. Możesz także użyć modeli quasi-prawdopodobieństwa, ale to kwestia gustu, nie lubię ich tak bardzo.
Momo
1
Aby sprawdzić, jaki rozkład może być dobrym modelem dla twojej odpowiedzi, możesz użyć funkcji vcd :: distplot.
Momo

Odpowiedzi:

12

Twój wynik to liczba pomocnych wskazówek na 10, która jest dwumianową zmienną losową. Powinieneś więc to przeanalizować za pomocą pewnego rodzaju regresji dwumianowej, prawdopodobnie quasi-dwumianowej, aby umożliwić nadmierną dyspersję. Zauważ, że Poisson i myląco nazwane ujemne rozkłady dwumianowe są odpowiednie dla nieograniczonych danych zliczeniowych.

Aniko
źródło
2
Wspomniałem o dwumianu ujemnym, ponieważ jest to rozproszona alternatywa dla Poissona, którą początkowo sugerował poser. Ponieważ każdy respondent ma x / 10 wskazówek, może być dwumianowy, ale dla każdego z 10 wskazówek istnieje stałe prawdopodobieństwo pi dla i-tego respondenta, a zdarzenia są niezależne. Może tak być.
Michael R. Chernick
2
beta-dwumianowa to kolejna możliwość (beta-dwumianowa jest dwumianowa, podobnie jak dwumianowa ujemna względem Poissona). betabinw aodpakiecie to zrobi.
Ben Bolker
5

Ja również poleciłbym spojrzeć na ujemny dwumian, gdyby możliwe wyniki były nieskończone, jak w przypadku Poissona. Możesz zajrzeć do jednej z książek Joe Hilbe. Ma jeden na GEE i jeden na ujemnej regresji dwumianowej, co kontrastuje z regresją Poissona. Ale jak wskazał Aniko, jest tylko 10 wskazówek, więc każdy respondent może mieć tylko 0, 1, 2, 3, ..., 10, a zatem ani Poisson, ani ujemny wykładniczy nie jest odpowiedni.

Michael R. Chernick
źródło
4

Dobry punkt autorstwa @Aniko. Innym wyborem jest regresja Beta. Był artykuł zatytułowany „A Better Lemon Squeezer”, który zawierał wiele informacji na temat tej metody.

Peter Flom - Przywróć Monikę
źródło
2
Ale beta byłby używany do modelowania proporcji, a nie zmiennej zliczania na skończonym zbiorze liczb całkowitych.
Michael R. Chernick
Ma szersze zastosowania, @MichaelChernick, zobacz artykuł, który jest całkiem dobry.
Peter Flom - Przywróć Monikę
@PeterFlom Nie może również obsługiwać danych w przedziale [0,1], tylko (0,1).
colin