Znam testy normalności, ale jak mam przetestować „Poissona”?
Mam próbkę ~ 1000 nieujemnych liczb całkowitych, które, jak podejrzewam, pochodzą z rozkładu Poissona i chciałbym to przetestować.
Znam testy normalności, ale jak mam przetestować „Poissona”?
Mam próbkę ~ 1000 nieujemnych liczb całkowitych, które, jak podejrzewam, pochodzą z rozkładu Poissona i chciałbym to przetestować.
Przede wszystkim moja rada jest taka, że musisz powstrzymać się od wypróbowania rozkładu Poissona, tak jak w przypadku danych. Sugeruję, aby najpierw stworzyć teorię, dlaczego rozkład Poissona powinien pasować do określonego zestawu danych lub zjawiska.
Po ustaleniu tego następnym pytaniem jest, czy rozkład jest jednorodny, czy nie. Oznacza to, czy wszystkie części danych są obsługiwane przez ten sam rozkład Poissona, czy też istnieje w tym zmiana w zależności od jakiegoś aspektu, takiego jak czas lub przestrzeń. Po przekonaniu się o tych aspektach wypróbuj następujące trzy testy:
wyszukaj je, a znajdziesz je łatwo w sieci.
Oto sekwencja poleceń R, które mogą być pomocne. Jeśli zauważysz jakieś błędy, możesz je komentować lub edytować.
źródło
Podejrzewam, że najłatwiej jest po prostu wykonać test dobroci dopasowania w kwadracie chi .
W rzeczywistości oto miły aplet Java, który to zrobi!
źródło
Możesz użyć dyspersji (stosunku wariancji do średniej) jako statystyki testowej, ponieważ Poisson powinien dać dyspersję 1. Oto link do tego, jak używać go jako testu modelowego.
źródło
Dla rozkładu Poissona średnia równa się wariancji. Jeśli średnia próbki jest bardzo różna od wariancji próbki, prawdopodobnie nie masz danych Poissona. Wspomniany tutaj również test dyspersji jest formalizacją tego pojęcia.
Jeśli Twoja wariancja jest znacznie większa niż średnia, jak to zwykle bywa, możesz spróbować wypróbować ujemny rozkład dwumianowy.
źródło
Możesz narysować pojedynczą cyfrę, na której obserwowane i oczekiwane częstotliwości są rysowane obok siebie. Jeśli rozkłady są bardzo różne i masz również współczynnik wariancji-średni większy niż jeden, dobrym kandydatem jest ujemny dwumian. Przeczytaj sekcję Rozkłady częstotliwości od
The R Book
. Zajmuje się bardzo podobnym problemem.źródło
Myślę, że głównym punktem jest to, co podnosi sidmaestro ... czy konfiguracja eksperymentalna lub mechanizm generowania danych obsługuje założenie, że dane mogą pochodzić z rozkładu Poissona.
Nie jestem wielkim fanem testowania założeń dystrybucyjnych, ponieważ testy te zwykle nie są zbyt przydatne. Bardziej użyteczne wydaje mi się przyjęcie założeń dystrybucyjnych lub modelowych, które są elastyczne i dość odporne na odchylenia od modelu, zwykle do celów wnioskowania. Z mojego doświadczenia wynika, że obserwowanie średniej = wariancji nie jest tak częste, więc często negatywny model dwumianowy wydaje się bardziej odpowiedni i obejmuje Poissona jako szczególny przypadek.
Kolejną kwestią, która jest ważna w testowaniu dystrybucji, jeśli tego właśnie chcesz, jest upewnienie się, że nie ma w tym żadnych warstw, które sprawiłyby, że obserwowana dystrybucja byłaby mieszanką innych dystrybucji. Poszczególne rozkłady specyficzne dla warstwy mogą wyglądać jak Poisson, ale obserwowana mieszanina może nie być. Analogiczna sytuacja z regresji zakłada jedynie, że rozkład warunkowy Y | X jest zwykle rozkładem, a nie tak naprawdę rozkład samego Y.
źródło
Jeszcze innym sposobem na sprawdzenie tego jest kwantylowy wykres kwantylowy. W R jest qqplot. To bezpośrednio rysuje twoje wartości względem rozkładu normalnego z podobną średnią i sd
źródło