Regresja Poissona vs. regresja najmniejszych kwadratów?

21

Regresja Poissona jest GLM z funkcją log-link.

Alternatywnym sposobem modelowania danych liczbowych o rozkładzie innym niż normalny jest przetwarzanie wstępne, biorąc dziennik (a raczej dziennik (1 + liczba) do obsługi zer). Jeśli wykonasz regresję metodą najmniejszych kwadratów w odpowiedziach na logarytm, czy jest to związane z regresją Poissona? Czy poradzi sobie z podobnymi zjawiskami?

Brendan OConnor
źródło
6
Jak planujesz przyjmować logarytmy o dowolnych zliczeniach, które są zerowe?
whuber
3
Zdecydowanie nie równoważny. Łatwym sposobem na sprawdzenie tego jest sprawdzenie, co by się stało, gdybyś zaobserwował liczbę zerową. (Komentarz utworzony przed obejrzeniem komentarza @ whuber. Najwyraźniej ta strona nie odświeżyła się odpowiednio w mojej przeglądarce).
kardynał
OK, oczywiście powinienem powiedzieć, log (1 + liczba). Oczywiście nie równoważne, ale zastanawiam się, czy istnieje związek lub czy potrafią poradzić sobie z podobnymi zjawiskami.
Brendan OConnor
1
Przydatna jest dyskusja na ten temat tutaj: blog.stata.com/2011/08/22/…
Michael Bishop

Odpowiedzi:

22

Z jednej strony w regresji Poissona lewa strona równania modelu jest logarytmem oczekiwanej liczby: .log(E[Y|x])

Z drugiej strony w „standardowym” modelu liniowym lewa strona to oczekiwana wartość normalnej zmiennej odpowiedzi: . W szczególności funkcja link jest funkcją tożsamości.E[Y|x]

Powiedzmy teraz, że jest zmienną Poissona i że zamierzasz ją znormalizować, przyjmując log: . Ponieważ ma być normalne, planujesz dopasować standardowy model liniowy, dla którego lewą stroną jest . Ale ogólnie . W konsekwencji te dwa podejścia do modelowania są różne.Y = log ( Y ) Y E [ Y | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] log ( E [ Y | x ] )YY=log(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])

ocram
źródło
6
W rzeczywistości kiedykolwiek, chyba że do pewnego -measurable funkcji , czyli jest w pełni określona przez . P ( Y = f ( X ) | X ) = 1 σ ( X ) f Y XE(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
kardynał
@kardynał. Bardzo dobrze powiedziane.
suncoolsu,
9

Widzę dwie ważne różnice.

Po pierwsze, przewidywane wartości (w oryginalnej skali) zachowują się inaczej; w logicznych liniach najmniejszych kwadratów reprezentują warunkowe środki geometryczne; w modelu log-Poissona reprezentują środki warunkowe. Ponieważ dane w tego rodzaju analizach są często wypaczone w prawo, warunkowa średnia geometryczna nie docenia średniej warunkowej.

Drugą różnicą jest dorozumiany rozkład: lognormalny w porównaniu do Poissona. Odnosi się to do struktury heteroskedastyczności reszt: wariancja resztkowa proporcjonalna do kwadratowych wartości oczekiwanych (lognormalne) w porównaniu do wariancji resztkowej proporcjonalna do wartości oczekiwanej (Poissona).

gra w kości
źródło
-1

Jedną oczywistą różnicą jest to, że regresja Poissona da liczby całkowite jako prognozy punktowe, podczas gdy regresja liniowa logarytmiczna może dać liczby całkowite.

Galit Shmueli
źródło
12
Jak to działa? Czy GLM nie szacuje oczekiwań , które niekoniecznie są integralne?
whuber
1
To nieprawda. Mechanicznie regresje Poissona doskonale nadają się do obsługi liczb całkowitych. Standardowe błędy nie będą rozprowadzane poissonem, ale zamiast tego można po prostu użyć solidnych standardowych błędów.
Matthew