Mam zestaw danych zawierający liczbę działań wykonanych przez osoby w ciągu 7 dni. Konkretne działanie nie powinno być istotne dla tego pytania. Oto kilka statystyk opisowych dla zestawu danych:
Oto histogram danych:
Sądząc ze źródła danych, pomyślałem, że pasuje do rozkładu Poissona. Jednak średnia wariancja, i histogram są mocno obciążone w lewo. Dodatkowo przeprowadziłem goodfit
test w R i otrzymałem:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Metoda maksymalnego prawdopodobieństwa również dała wartość p = 0. Zakładając, że hipoteza zerowa jest taka: dane pasują do rozkładu Poissona (dokumentacja tego nie precyzuje), a następnie goodfit
test mówi, że powinniśmy odrzucić hipotezę zerową, dlatego dane nie dopasuj rozkład Poissona.
Czy ta analiza jest poprawna? Jeśli tak, to jaki według Ciebie rozkład będzie pasował do tych danych?
Moim ostatecznym celem jest porównanie średniej liczby działań między 2 próbkami, aby sprawdzić, czy średnie są różne; czy sprawdzanie dystrybucji jest nawet konieczne? Rozumiem, że typowe testy (testy z-, t-, ) nie działają dla rozkładów Poissona. Jakiego testu należy użyć, jeśli dane są rzeczywiście dystrybuowane przez Poissona?
źródło
Odpowiedzi:
Jeśli wariancja jest większa niż średnia, nazywa się to nadmierną dyspersją. Naturalnym modelem tego jest ujemny rozkład dwumianowy. Można to również postrzegać jako rozkład Poissona, w którym parametr lambda następuje po rozkładzie gamma. Pierwszym i łatwym krokiem może być dopasowanie ujemnego rozkładu dwumianowego.
źródło
Jeśli dane nieprzetworzone nie wyglądają jak rozkład Poissona, to czegoś brakuje. Być może liczba działań zależy od temperatury, więc w upalne dni ludzie robią mniej rzeczy. Wtedy zmiany temperatury w okresie badania wpłynęłyby na rozkład i sprawiłyby, że nie był on Poissonem.
Jednak liczba działań każdego dnia może być nadal Poissona ze średnią zależną od temperatury. Jeśli masz temperaturę każdego dnia, możesz wykonać GLM, cofając liczbę działań jako zmienną Poissona, w zależności od temperatury. Jeśli to dobrze pasuje, praca wykonana.
Jeśli nie masz możliwych zmiennych objaśniających, wszystko, co możesz powiedzieć, to „dzieje się coś innego - liczba działań nie pochodzi z niezależnych próbek Poissona” - tzn. Odrzuć hipotezę zerową.
Istnieją testy bez dystrybucji, które mogą porównywać sparowane obserwacje za pomocą rankingów i tak dalej. Zazwyczaj robią dużą liczbę permutacji i obliczają statystyki testowe ...
źródło
Jeszcze jedno: należy również sprawdzić wartości odstające w danych zliczania. Masz jedną liczbę na 400, a potem nic na 800. Prawdopodobnie nie pasuje do żadnego z popularnych modeli.
źródło
Wydaje się, że zliczasz liczbę zdarzeń zerowych - jeśli tak, to możesz rozważyć model ZIP (lub przeszkodę) - zapoznaj się z modelami regresji dla danych zliczania w R. autorstwa Zeileis i in.
Podsumowując, metody te modelują zera osobno od pozostałych zliczeń, które mogą być przydatne w twoim przypadku.
Zapoznaj się z
pscl
pakietemzeroinfl()
ihurdle()
funkcjami.źródło
Podejrzewam, że twój histogram jest zwodniczy. Jeśli masz nieco ponad 300 obserwacji równomiernie rozłożonych w całym zakresie 0-50, około 320 równomiernie rozłożonych w całym zakresie 50-100 i 50 lub więcej powyżej 100, średnia powinna być znacznie większa niż 18,2.
Jeśli dane w zakresie 0-50 nie są równomiernie rozłożone, ale koncentrują się w pobliżu zera, zaskakujące jest widzenie więcej w zakresie 50-100 niż w zakresie 0-50.
Być może masz mieszankę dystrybucji. Wątpię, aby każdy mógł wiele z tym zrobić bez faktycznych obserwacji 696, a zwłaszcza bez wiedzy na temat kontekstu. Czy każda z 696 obserwacji jest indywidualna i czy odpowiedzią jest liczba działań, które każda osoba podjęła? Jeśli tak, to czy dane zawierają różne typy osób?
źródło