Jaki model regresji jest najbardziej odpowiedni do użycia z danymi zliczania?

10

Próbuję trochę zagłębić się w statystyki, ale utknąłem z czymś. Moje dane są następujące:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Chcę teraz zbudować model regresji, aby móc przewidzieć liczbę genów w danym roku na podstawie danych. Do tej pory robiłem to z regresją liniową, ale dokonałem pewnych odczytów i nie wydaje się to najlepszym wyborem dla tego rodzaju danych. Czytałem, że regresja Poissona może być przydatna, ale nie jestem pewien, czego użyć. Więc moje pytanie brzmi:

Czy istnieje ogólny model regresji dla tego rodzaju danych? Jeśli nie, co muszę zrobić, aby dowiedzieć się, która metoda jest najbardziej odpowiednia (pod względem tego, co muszę dowiedzieć się o danych)?

sekwencja_ twarda
źródło
Moja odpowiedź tutaj: stats.stackexchange.com/questions/142338/... jest bardzo istotna.
kjetil b halvorsen
2
Czy chodzi o dane szeregów czasowych?
Michael M

Odpowiedzi:

22

Nie, nie ma ogólnego modelu regresji danych zliczania.

(Tak jak nie ma ogólnego modelu regresji dla danych ciągłych. Najczęściej przyjmuje się model liniowy z normalnie rozłożonym szumem homoskedastycznym i dopasowywany za pomocą zwykłych najmniejszych kwadratów. Jednak regresja gamma lub regresja wykładnicza jest często stosowana do radzenia sobie z różnymi założeniami rozkładu błędów lub modele warunkowej heteroskedastyczności, takie jak ARCH lub GARCH w kontekście szeregów czasowych, w celu radzenia sobie z hałasem heteroskedastycznym).

Typowe modele obejmują podczas pisania lub ujemną regresję dwumianową. Modele te są wystarczająco rozpowszechnione, aby znaleźć wszelkiego rodzaju oprogramowanie, samouczki lub podręczniki. Szczególnie podoba mi się negatywna regresja dwumianowa Hilbe . To wcześniejsze pytanie dotyczy sposobu wyboru między różnymi modelami danych zliczania.

Jeśli masz „wiele” zer w swoich danych, a zwłaszcza jeśli podejrzewasz, że zera mogą być generowane przez inny proces generowania danych niż niezerowe (lub że niektóre zera pochodzą z jednego modułu MZD, a inne zera i zera z innego MZD), przydatne mogą być modele o . Najczęstszym z nich jest regresja Poissona (ZIP) z zerowym napompowaniem.

Możesz również przejrzeć nasze poprzednie pytania oznaczone zarówno „regresją”, jak i „liczbą danych” .


EDYCJA: @MichaelM podnosi dobrą rację. To nie wygląda jak szeregi czasowe danych policzyć. (A brakujące dane z 1992 i 1994 r. Sugerują mi, że w każdym z tych lat powinno być zero. Jeśli tak, to podaj to. Zero jest prawidłową liczbą i zawiera informacje.) W związku z tym, ja Sugeruję również przejrzenie naszych poprzednich pytań oznaczonych zarówno „szeregami czasowymi”, jak i „danymi zliczającymi” .

Stephan Kolassa
źródło
4
Dobrze, ale zwykłe najmniejsze kwadraty to procedura szacowania, a nie model. Wiesz o tym, ale jest to powszechne zamieszanie, więc nie powinniśmy pisać, pobłażając sobie.
Nick Cox,
@NickCox: dobry punkt. Zredagowałem swój post.
Stephan Kolassa
11

„Domyślnym”, najczęściej stosowanym i opisywanym rozkładem wyboru danych zliczania jest rozkład Poissona . Najczęściej ilustruje to przykład pierwszego praktycznego zastosowania:

Praktyczne zastosowanie tej dystrybucji dokonał Władysław Bortkiewicz w 1898 r., Kiedy powierzono mu zadanie zbadania liczby żołnierzy armii pruskiej zabitych przypadkowo przez kopnięcia koni; eksperyment ten wprowadził rozkład Poissona do dziedziny inżynierii niezawodności.

λλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

λ

Problem z wykorzystaniem rozkładu Poissona do danych rzeczywistych polega na tym, że zakłada on, że średnia jest równa wariancji. Naruszenie tego założenia nazywa się nadmierną dyspersją . W takich przypadkach zawsze można użyć modelu quasi-Poissona , logarytmiczno-liniowego modelu nie-Poissona (dla dużych liczb Poissona można aproksymować rozkładem normalnym), ujemnej regresji dwumianowej (ściśle związanej z Poissonem; patrz Berk i MacDonald, 2008) lub inne modele, opisane przez Stephana Kolassę .

Aby zapoznać się z przyjaznym wprowadzeniem do regresji Poissona, możesz także sprawdzić artykuły autorstwa Lavery'ego (2010) lub Coxe, Westa i Aikena (2009).


Lavery, R. (2010). Animowany przewodnik: wprowadzenie do regresji Poissona. Papier NESUG, SA04.

Coxe, S., West, SG, i Aiken, LS (2009). Analiza danych zliczeniowych: Delikatne wprowadzenie do regresji Poissona i jej alternatyw. Dziennik oceny osobowości, 91 (2), 121–136.

Berk, R. i MacDonald, JM (2008). Nadmierna dyspersja i regresja Poissona. Journal of Quantitative Criminology, 24 (3), 269–284.

Tim
źródło
2
Łączymy dopasowywanie rozkładu Poissona za pomocą regresji Poissona. Dla regresji Poissona nie jest bezwzględnym wymogiem, aby odpowiedź miała rozkład Poissona. Regresja Poissona działa dobrze dla szerokiej gamy pozytywnych odpowiedzi, w tym również dla mierzonych zmiennych. Warto uważać na standardowe błędy wnioskowania, ale jest to możliwe. Patrz np. Blog.stata.com/2011/08/22/…
Nick Cox
@NickCox racja, ale pytanie dotyczyło wyłącznie danych zliczania, więc prawdopodobnie nie ma potrzeby wchodzenia w szczegóły dotyczące innych zastosowań regresji Poissona.
Tim
3
Zgadzam się, że nie trzeba wchodzić w szczegóły. ale każdy powód, by trochę popchnąć regresję Poissona. Jego użyteczność jest zadziwiająco mało znana; zasługuje na to, aby znaleźć się w co najmniej wielu tekstach pośrednich. Co ważniejsze, nie zgadzam się wcale, że gdy wariancja nie będzie równa, oznacza to, że powinieneś użyć innych modeli; wprowadza to w błąd dwa zupełnie różne problemy.
Nick Cox,
Ponadto istotny jest fakt, że regresji Poissona można używać ze zmiennymi mierzonymi, ponieważ w takich przypadkach średnia równość wariancji nie jest nawet znacząca, ponieważ mają różne wymiary. Takie przypadki podkreślają zatem, że wymóg taki nie jest.
Nick Cox
3
exp(Xb)
0

Dwumian Poissona lub ujemny to dwa szeroko stosowane modele do zliczania danych. Zdecydowałbym się na ujemny dwumian, ponieważ ma on lepsze założenia dotyczące wariancji.


źródło
3
Co rozumiesz przez „lepszy”?
Tim
2
W obecnej formie jest to raczej komentarz niż odpowiedź. Myślisz, że mógłbyś się na tym rozwinąć? Z pewnością powinieneś pomyśleć o komentarzu Tima - słowo „lepiej” jest bardzo niejasne
Silverfish
Negatywne modele dwumianowe (NB) radzą sobie z danymi z rozproszonymi (OD), zakładając, że jest to spowodowane grupowaniem. Następnie wykorzystuje model przechwytywania losowego z rozkładem Poissona rozproszonym „wewnątrz” i rozkładem gamma „między” strukturą. To, co jest lepsze, zależy od twojego założenia dla OD. Jeśli założysz, że stopień OD różni się w zależności od wielkości klastra, NB może pomóc. Jeśli założymy, że OD jest proporcjonalne do wielkości klastra, quasi-poisson ma to założenie. Oszacowania NB będą tendencyjne, jeśli OD to tylko szum Gaussa. Poisson będzie mniej stronniczy, ale standardowe błędy mogą być zbyt małe przy OD.
Mainard