Próbuję trochę zagłębić się w statystyki, ale utknąłem z czymś. Moje dane są następujące:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Chcę teraz zbudować model regresji, aby móc przewidzieć liczbę genów w danym roku na podstawie danych. Do tej pory robiłem to z regresją liniową, ale dokonałem pewnych odczytów i nie wydaje się to najlepszym wyborem dla tego rodzaju danych. Czytałem, że regresja Poissona może być przydatna, ale nie jestem pewien, czego użyć. Więc moje pytanie brzmi:
Czy istnieje ogólny model regresji dla tego rodzaju danych? Jeśli nie, co muszę zrobić, aby dowiedzieć się, która metoda jest najbardziej odpowiednia (pod względem tego, co muszę dowiedzieć się o danych)?
regression
count-data
poisson-regression
sekwencja_ twarda
źródło
źródło
Odpowiedzi:
Nie, nie ma ogólnego modelu regresji danych zliczania.
(Tak jak nie ma ogólnego modelu regresji dla danych ciągłych. Najczęściej przyjmuje się model liniowy z normalnie rozłożonym szumem homoskedastycznym i dopasowywany za pomocą zwykłych najmniejszych kwadratów. Jednak regresja gamma lub regresja wykładnicza jest często stosowana do radzenia sobie z różnymi założeniami rozkładu błędów lub modele warunkowej heteroskedastyczności, takie jak ARCH lub GARCH w kontekście szeregów czasowych, w celu radzenia sobie z hałasem heteroskedastycznym).
Typowe modele obejmują regresję Poissona podczas pisania lub ujemną regresję dwumianową. Modele te są wystarczająco rozpowszechnione, aby znaleźć wszelkiego rodzaju oprogramowanie, samouczki lub podręczniki. Szczególnie podoba mi się negatywna regresja dwumianowa Hilbe . To wcześniejsze pytanie dotyczy sposobu wyboru między różnymi modelami danych zliczania.
Jeśli masz „wiele” zer w swoich danych, a zwłaszcza jeśli podejrzewasz, że zera mogą być generowane przez inny proces generowania danych niż niezerowe (lub że niektóre zera pochodzą z jednego modułu MZD, a inne zera i zera z innego MZD), przydatne mogą być modele o zerowej inflacji . Najczęstszym z nich jest regresja Poissona (ZIP) z zerowym napompowaniem.
Możesz również przejrzeć nasze poprzednie pytania oznaczone zarówno „regresją”, jak i „liczbą danych” .
EDYCJA: @MichaelM podnosi dobrą rację. To nie wygląda jak szeregi czasowe danych policzyć. (A brakujące dane z 1992 i 1994 r. Sugerują mi, że w każdym z tych lat powinno być zero. Jeśli tak, to podaj to. Zero jest prawidłową liczbą i zawiera informacje.) W związku z tym, ja Sugeruję również przejrzenie naszych poprzednich pytań oznaczonych zarówno „szeregami czasowymi”, jak i „danymi zliczającymi” .
źródło
„Domyślnym”, najczęściej stosowanym i opisywanym rozkładem wyboru danych zliczania jest rozkład Poissona . Najczęściej ilustruje to przykład pierwszego praktycznego zastosowania:
Problem z wykorzystaniem rozkładu Poissona do danych rzeczywistych polega na tym, że zakłada on, że średnia jest równa wariancji. Naruszenie tego założenia nazywa się nadmierną dyspersją . W takich przypadkach zawsze można użyć modelu quasi-Poissona , logarytmiczno-liniowego modelu nie-Poissona (dla dużych liczb Poissona można aproksymować rozkładem normalnym), ujemnej regresji dwumianowej (ściśle związanej z Poissonem; patrz Berk i MacDonald, 2008) lub inne modele, opisane przez Stephana Kolassę .
Aby zapoznać się z przyjaznym wprowadzeniem do regresji Poissona, możesz także sprawdzić artykuły autorstwa Lavery'ego (2010) lub Coxe, Westa i Aikena (2009).
Lavery, R. (2010). Animowany przewodnik: wprowadzenie do regresji Poissona. Papier NESUG, SA04.
Coxe, S., West, SG, i Aiken, LS (2009). Analiza danych zliczeniowych: Delikatne wprowadzenie do regresji Poissona i jej alternatyw. Dziennik oceny osobowości, 91 (2), 121–136.
Berk, R. i MacDonald, JM (2008). Nadmierna dyspersja i regresja Poissona. Journal of Quantitative Criminology, 24 (3), 269–284.
źródło
Dwumian Poissona lub ujemny to dwa szeroko stosowane modele do zliczania danych. Zdecydowałbym się na ujemny dwumian, ponieważ ma on lepsze założenia dotyczące wariancji.
źródło