Jakie zalety ma regresja Poissona w porównaniu z regresją liniową w tym przypadku?

12

Otrzymałem zestaw danych, który zawiera liczbę nagród zdobytych przez uczniów w jednym liceum, gdzie predyktory liczby zdobytych nagród obejmują rodzaj programu, w którym uczeń został zapisany, oraz wynik z egzaminu z matematyki.

Zastanawiałem się, czy ktoś mógłby mi powiedzieć, dlaczego model regresji liniowej może być nieodpowiedni w tym przypadku i dlaczego lepiej byłoby zastosować regresję Poissona? Dzięki.

Emilia
źródło

Odpowiedzi:

14

Trzy punkty dotyczące regresji Poissona i normalnej, wszystkie dotyczące specyfikacji modelu:

Wpływ zmian w predyktorach

Z ciągłym predyktorem, takim jak wynik testu matematycznego, regresja Poissona (ze zwykłym łączem logarytmicznym) sugeruje, że zmiana jednostki w predyktorze prowadzi do procentowej zmiany liczby nagród, tj. 10 dodatkowych punktów w teście matematycznym wiąże się np. Z 25 procentami więcej nagród. Zależy to od liczby nagród, które uczeń już ma. Natomiast regresja normalna wiąże 10 dodatkowych punktów ze stałą kwotą, powiedzmy 3 dodatkowe nagrody we wszystkich okolicznościach. Powinieneś być zadowolony z tego założenia przed użyciem modelu, który go tworzy. (fwiw myślę, że to bardzo rozsądne, modulo następny punkt.)

Radzenie sobie ze studentami bez nagród

Jeśli nie ma tak naprawdę wielu nagród rozłożonych na wielu studentów, wówczas liczba nagród będzie raczej niska. W rzeczywistości przewidywałbym zerową inflację, tzn. Większość studentów nie dostanie żadnej nagrody, więc dużo zer, a niektórzy dobrzy studenci dostają sporo nagród. Jest to sprzeczne z założeniami modelu Poissona i jest co najmniej tak samo złe dla modelu normalnego.

Jeśli masz przyzwoitą ilość danych, naturalny byłby model „z napompowaniem zerowym” lub „przeszkodą”. Są to dwa połączone ze sobą modele: jeden, aby przewidzieć, czy uczeń otrzyma jakieś nagrody, a drugi, aby przewidzieć, ile dostanie, jeśli w ogóle je dostanie (zazwyczaj jakaś forma modelu Poissona). Spodziewałbym się, że cała akcja będzie w pierwszym modelu.

Wyłączność przyznawania nagród

Wreszcie mała uwaga na temat nagród. Jeśli nagrody są wyłączne, tj. Jeśli jeden uczeń otrzyma nagrodę, wówczas żaden inny uczeń nie może otrzymać nagrody, wówczas wyniki są łączone; jedno liczenie dla studenta a przesuwa możliwą liczbę wszystkich pozostałych. To, czy warto się tym martwić, zależy od struktury nagród i liczebności populacji studentów. Zignorowałbym to przy pierwszym przejściu.

Podsumowując, Poisson wygodnie dominuje Normalny, z wyjątkiem bardzo dużych liczb, ale sprawdź założenia Poissona, zanim oprze się na nim w celu wyciągania wniosków, i przygotuj się na przejście do nieco bardziej złożonej klasy modeli, jeśli to konieczne.

sprzężonyprior
źródło
9

Regresja Poissona byłaby bardziej odpowiednia w tym przypadku, ponieważ twoja odpowiedź jest liczbą.

Mówiąc prościej, modelujemy, że rozkład liczby nagród dla pojedynczego ucznia pochodzi z rozkładu poissona i że każdy uczeń ma swój własny parametr poissona. Regresja Poissona następnie odnosi ten parametr do zmiennych objaśniających, a nie do liczby.λ

Powodem, dla którego jest to lepsze niż normalna regresja liniowa, jest błąd. Jeśli nasz model jest poprawny, a każdy uczeń ma własną , to dla danego spodziewalibyśmy się rozkładu poissona liczeń wokół niego - tj. Rozkładu asymetrycznego. Oznacza to, że niezwykle wysokie wartości nie są tak zaskakujące, jak niezwykle niskie.λλ

Normalna regresja liniowa zakłada normalne błędy wokół średniej, a zatem równo je waży. Mówi to, że jeśli student ma spodziewaną liczbę nagród równą 1, równie prawdopodobne jest, że otrzyma -2 nagrody, podobnie jak otrzyma 3 nagrody: jest to oczywiście nonsens i do czego dąży się poison.

Korone
źródło
8

Zwykła regresja najmniejszych kwadratów nagród w predyktorach zapewni spójne oszacowania parametrów, o ile średnia warunkowa nagród jest liniowa w predyktorach. Jest to jednak często nieodpowiednie, ponieważ pozwala, aby przewidywana liczba nagród była ujemna (nawet w przypadku „rozsądnych” wartości predyktorów), co nie ma sensu. Ludzie często będą próbowali temu zaradzić, biorąc naturalny dziennik nagród i korzystając z OLS. Ale to się nie udaje, ponieważ niektórzy studenci nie otrzymują żadnych nagród, więc musisz użyć czegoś takiego jak , ale to stwarza własne problemy, ponieważ prawdopodobnie dbasz o nagrody, a ponowna transformacja nie jest trywialna.ln(awards+0.5)

Ponadto, ponieważ oczekiwana liczba nagród staje się bardzo duża, OLS powinien działać lepiej z powodów określonych przez @Corone. W Lake Wobegon OLS jest najlepszym rozwiązaniem.

Jeśli oczekiwana liczba jest niska, z dużą ilością zer, użyłbym Poissona z solidnymi standardowymi błędami w stosunku do ujemnego modelu dwumianowego. Regresja NB przyjmuje silne założenia dotyczące wariancji pojawiającej się w warunkach pierwszego rzędu, które wytwarzają współczynniki. Jeżeli te założenia nie zostaną spełnione, same współczynniki mogą zostać skażone. W przypadku Poissona tak nie jest.

Dimitriy V. Masterov
źródło
4

@corone podnosi dobre punkty, ale zauważ, że Poisson jest naprawdę bardzo asymetryczny, gdy jest mała. Nawet dla = 10, jest dość symetryczny np.λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

pokazuje skośność 0,31, co jest dość bliskie zeru.

Lubię też punkty @conjugateprior. Z mojego doświadczenia wynika, że ​​regresja Poissona rzadko pasuje dobrze; Zazwyczaj kończę, używając albo modelu dwumianowego ujemnego, albo modelu z napełnieniem zerowym.

Peter Flom - Przywróć Monikę
źródło