Używasz regresji Poissona dla ciągłych danych?

11

Czy można zastosować rozkład Poissona do analizy danych ciągłych, a także danych dyskretnych?

Mam kilka zestawów danych, w których zmienne odpowiedzi są ciągłe, ale bardziej przypominają rozkład Poissona niż rozkład normalny. Jednak rozkład Poissona jest rozkładem dyskretnym i zwykle dotyczy liczb lub zliczeń.

użytkownik3136
źródło
Czym zatem różnią się twoje rozkłady empiryczne od zmiennych gamma?
whuber
1
Użyłem rozkładu gamma dla tych danych. Jeśli użyjesz rozkładu gamma z linkiem dziennika, uzyskasz prawie dokładnie taki sam wynik, jaki uzyskujesz z nadmiernie rozproszonego modelu Poissona, jednak w większości pakietów statystycznych jestem zaznajomiony z tym, że regresja Poissona jest prostsza i znacznie bardziej elastyczna.
user3136,
Czy nie byłoby innych lepszych dystrybucji, np. Sugestii Whmera o gamma?
Peter Flom - Przywróć Monikę
1
@PeterFlom - Zastanawiam się, czy ten problem często się pojawia, ponieważ pakiet glmnet w R nie obsługuje ani rodziny Gamma, ani rodziny Gaussa z funkcją łączenia logów. Ponieważ jednak glmnet jest używany jako pakiet do modelowania predykcyjnego (stąd użytkownicy są zainteresowani tylko współczynnikami modelu, a nie błędami współczynnika wspólnego), a ponieważ DBN Poissona wytwarza spójny współczynnik. szacunki dla modeli w postaci ln [E (y)] = beta0 + beta * X z ciągłymi odpowiedziami niezależnie od rozkładu, domyślam się, że autorzy glmnet nie zawracali sobie głowy włączeniem tych dodatkowych rodzin.
RobertF

Odpowiedzi:

12

Kluczowym założeniem uogólnionego modelu liniowego, który jest tutaj istotny, jest związek między wariancją a średnią odpowiedzi, biorąc pod uwagę wartości predyktorów. Gdy określisz rozkład Poissona, oznacza to, że zakładasz, że wariancja warunkowa jest równa średniej warunkowej. * Rzeczywisty kształt rozkładu nie ma większego znaczenia: może to być Poisson, gamma lub normalny, lub cokolwiek innego, o ile utrzymuje się relacja średnia-wariancja.

* Możesz rozluźnić założenie, że wariancja równa się średniej z proporcjonalnością i nadal zwykle osiąga dobre wyniki.

Hong Ooi
źródło
9

Jeśli mówisz o zastosowaniu odpowiedzi Poissona w uogólnionym modelu liniowym, to tak, jeśli chcesz przyjąć założenie, że wariancja każdej obserwacji jest równa jej średniej.

Jeśli nie chcesz tego robić, inną alternatywą może być przekształcenie odpowiedzi (np. Pobranie dzienników).

Simon Byrne
źródło
Myślę, że oprócz twojej tezy, nawet jeśli @ użytkownik3136 nie jest skłonny przyjąć założenia średniej = wariancji, może on / ona wykorzystać quasipoissonrodzinę glm.
suncoolsu
2
Ale moim problemem jest to, dlaczego chcesz przekształcać ciągłe dane na dyskretne. Zasadniczo traci informacje. Również gdy prosta logtransformacja zadziałałaby, po co dyskretyzować dane? Wykorzystuje glmprace, ale każdy wynik jest oparty na asymptotyce (która może, ale nie
musi
@suncoolsu: 1) quasipoisson sprawia, że ​​założenie średniej jest proporcjonalne do wariancji. 2) Nie miałem na myśli transformacji na dyskretną, miałem na myśli transformację (utrzymanie ciągłości), abyś mógł użyć innego modelu.
Simon Byrne,
tak - zrozumiałem, zgadzam się z tobą. Przepraszam, mówiłem o pytaniu. Quasi-poisson, bierze pod uwagę naddyspersję, prawda? (jeśli dobrze pamiętam, por. Faraway 2006)
suncoolsu,
W tym konkretnym przypadku nie byłem zadowolony, że każda próba transformacji (log, sqrt, box-cox) dała dobre przybliżenie do normalności. Nawiasem mówiąc, jeśli użyję normalnej metody transformacji partytury, to mogę przekształcić większość danych do prawie pięknej normalności, ale nie widziałem tej transformacji powszechnie używanej, więc zakładam, że jest pewien haczyk (trudny do ponownej transformacji).
user3136,