Jeśli nie jest Poissonem, to co to za dystrybucja?

11

Mam zestaw danych zawierający liczbę działań wykonanych przez osoby w ciągu 7 dni. Konkretne działanie nie powinno być istotne dla tego pytania. Oto kilka statystyk opisowych dla zestawu danych:

Range0772Mean18.2Variance2791Number of observations696

Oto histogram danych: histogram akcji

Sądząc ze źródła danych, pomyślałem, że pasuje do rozkładu Poissona. Jednak średnia wariancja, i histogram są mocno obciążone w lewo. Dodatkowo przeprowadziłem goodfittest w R i otrzymałem:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Metoda maksymalnego prawdopodobieństwa również dała wartość p = 0. Zakładając, że hipoteza zerowa jest taka: dane pasują do rozkładu Poissona (dokumentacja tego nie precyzuje), a następnie goodfittest mówi, że powinniśmy odrzucić hipotezę zerową, dlatego dane nie dopasuj rozkład Poissona.

Czy ta analiza jest poprawna? Jeśli tak, to jaki według Ciebie rozkład będzie pasował do tych danych?

Moim ostatecznym celem jest porównanie średniej liczby działań między 2 próbkami, aby sprawdzić, czy średnie są różne; czy sprawdzanie dystrybucji jest nawet konieczne? Rozumiem, że typowe testy (testy z-, t-, ) nie działają dla rozkładów Poissona. Jakiego testu należy użyć, jeśli dane są rzeczywiście dystrybuowane przez Poissona?χ2

Ciastko
źródło
czy próbowałeś już ujemnego dwumianu? Czy to pomogło?
Ric
@Richard, próbowałem ujemnego dwumianu, ale to nie pasowało. Dziękuję za sugestie. Ponieważ nie mogłem dowiedzieć się, jaki to był rozkład, postanowiłem zignorować rozkład i przejść do testu nieparametrycznego, testu U Manna-Whitneya.
Dcook
Jeszcze jedna uwaga do neg bin. W en.wikipedia.org/wiki/Negative_binomial_distribution widzisz wzór na średnią i wariancję oraz tę . Takie Czy miałoby to jakiś sens? Jeśli nie, to jest jeszcze więcej dowodów na to, że neg bin nie jest tutaj dobrym modelem (jeśli wierzymy w estymatory momentu). pmean/variance=1pp
Ric
Nie sądzę, aby koncepcja procesu Bernoulliego miała zastosowanie w moim przypadku. Nie ma koncepcji sukcesu lub porażki; badani albo wykonują interesującą akcję, albo nie. Nie próbują zawieść. Dlatego idea prawdopodobieństwa sukcesu nie ma sensu. Chyba że proces jest jednostką czasu. Ale nic nie stoi na przeszkodzie, aby podmiot wykonał wiele działań w tym czasie.
Dcook
wiesz najlepiej, jak interpretować swoje dane. Chciałem tylko przypomnieć ci ten neg.bin. powstaje jako mieszanina Poissona (jeśli podąża za rozkładem gamma. Zatem można interpretować w podobny sposób jak w przypadku Poissona. Ale nie chcę cię zmuszać :). Jeszcze jeden komentarz: jeśli podmiot może wykonać wiele akcji w jednym punkcie czasowym: czy nie może to być Compound Poisson / NegBin? Powiedz mi, czy chcesz więcej uwag na ten temat. lmabda
Ric

Odpowiedzi:

8

Jeśli wariancja jest większa niż średnia, nazywa się to nadmierną dyspersją. Naturalnym modelem tego jest ujemny rozkład dwumianowy. Można to również postrzegać jako rozkład Poissona, w którym parametr lambda następuje po rozkładzie gamma. Pierwszym i łatwym krokiem może być dopasowanie ujemnego rozkładu dwumianowego.

Ric
źródło
5

Jeśli dane nieprzetworzone nie wyglądają jak rozkład Poissona, to czegoś brakuje. Być może liczba działań zależy od temperatury, więc w upalne dni ludzie robią mniej rzeczy. Wtedy zmiany temperatury w okresie badania wpłynęłyby na rozkład i sprawiłyby, że nie był on Poissonem.

Jednak liczba działań każdego dnia może być nadal Poissona ze średnią zależną od temperatury. Jeśli masz temperaturę każdego dnia, możesz wykonać GLM, cofając liczbę działań jako zmienną Poissona, w zależności od temperatury. Jeśli to dobrze pasuje, praca wykonana.

Jeśli nie masz możliwych zmiennych objaśniających, wszystko, co możesz powiedzieć, to „dzieje się coś innego - liczba działań nie pochodzi z niezależnych próbek Poissona” - tzn. Odrzuć hipotezę zerową.

Istnieją testy bez dystrybucji, które mogą porównywać sparowane obserwacje za pomocą rankingów i tak dalej. Zazwyczaj robią dużą liczbę permutacji i obliczają statystyki testowe ...

Spacedman
źródło
4

Jeszcze jedno: należy również sprawdzić wartości odstające w danych zliczania. Masz jedną liczbę na 400, a potem nic na 800. Prawdopodobnie nie pasuje do żadnego z popularnych modeli.

Scortchi - Przywróć Monikę
źródło
1

Wydaje się, że zliczasz liczbę zdarzeń zerowych - jeśli tak, to możesz rozważyć model ZIP (lub przeszkodę) - zapoznaj się z modelami regresji dla danych zliczania w R. autorstwa Zeileis i in.

Podsumowując, metody te modelują zera osobno od pozostałych zliczeń, które mogą być przydatne w twoim przypadku.

Zapoznaj się z psclpakietem zeroinfl()i hurdle()funkcjami.

Sean
źródło
1

Podejrzewam, że twój histogram jest zwodniczy. Jeśli masz nieco ponad 300 obserwacji równomiernie rozłożonych w całym zakresie 0-50, około 320 równomiernie rozłożonych w całym zakresie 50-100 i 50 lub więcej powyżej 100, średnia powinna być znacznie większa niż 18,2.

Jeśli dane w zakresie 0-50 nie są równomiernie rozłożone, ale koncentrują się w pobliżu zera, zaskakujące jest widzenie więcej w zakresie 50-100 niż w zakresie 0-50.

Być może masz mieszankę dystrybucji. Wątpię, aby każdy mógł wiele z tym zrobić bez faktycznych obserwacji 696, a zwłaszcza bez wiedzy na temat kontekstu. Czy każda z 696 obserwacji jest indywidualna i czy odpowiedzią jest liczba działań, które każda osoba podjęła? Jeśli tak, to czy dane zawierają różne typy osób?

Emil Friedman
źródło