OLS vs. Poisson GLM z łączem tożsamości

11

Moje pytanie ujawnia moje słabe zrozumienie regresji Poissona i ogólnie GLM. Oto kilka fałszywych danych ilustrujących moje pytanie:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Niektóre niestandardowe funkcje zwracające psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Pasuje do czterech modeli: OLS, Gaussian GLM z łączem tożsamości, Poisson GLM z łączem logów, Poisson GLM z łączem tożsamości

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Na koniec wykreśl przewidywania:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

Mam 2 pytania:

  1. Wydaje się, że współczynniki i prognozy wychodzące z OLS i Gaussian GLM z łączem tożsamości są dokładnie takie same. Czy to zawsze prawda?

  2. Jestem bardzo zaskoczony, że szacunki i prognozy OLS bardzo różnią się od Poissona GLM z łączem tożsamości . Myślałem, że obie metody spróbują oszacować E (Y | X). Jak wygląda funkcja prawdopodobieństwa, gdy korzystam z łącza tożsamości dla Poissona?

William Chiu
źródło
Powiązane: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen
1
Jeśli chcesz zrobić najmniejszych kwadratów w celu przybliżenia modelu Poissona za pomocą łącza tożsamości, możesz również dopasować ważony model najmniejszych kwadratów, mdl.wols = lm (y ~ x, wagi = 1 / log (y + 1.00000000001)) gdzie log (y + 1.00000000001) jest następnie brany pod uwagę jako pierwszy szacunek wariancji (sqrt (y + 1E-10)) również działa - szacunki takich modeli byłyby bardzo zbliżone do oszacowania Poissona GLM z łączem tożsamości ...
Tom Wenseleers

Odpowiedzi:

14
  1. Tak, są tym samym. MLE dla Gaussa jest najmniejsze kwadraty, więc kiedy robisz Gaussian GLM z łączem tożsamości, robisz OLS.

  2. a) „ Myślałem, że obie metody spróbują oszacować E (Y | X)

    Rzeczywiście tak jest, ale sposób szacowania oczekiwań warunkowych w funkcji danych nie jest taki sam. Nawet jeśli zignorujemy rozkład (a zatem sposób, w jaki dane wprowadzają prawdopodobieństwo) i pomyślimy o GLM tylko w kategoriach średniej i wariancji (tak jakby to była tylko regresja ważona), wariancja Poissona wzrasta ze średnią, więc względne wagi obserwacji byłyby inne.

    b) „ Jak wygląda funkcja prawdopodobieństwa, gdy korzystam z łącza tożsamości dla Poissona?

    L(β0,β1)=ieλiλiyi/yi!

    =exp(iλi+yilog(λi)log(yi!)) gdzieλi=β0+β1xi

    =exp(i(β0+β1xi)+yilog(β0+β1xi)log(yi!))

Glen_b - Przywróć Monikę
źródło
4
Opracowanie drugiego punktu Glen_b. Jedną z opowieści, które sobie powiedziałem, które znalazłem dość wyjaśniające, jest to, że gdy szacowana średnia warunkowa powiększa się w modelu Poissona, model staje się bardziej tolerancyjny dla wartości danych daleko od średniej warunkowej. Porównaj to z prostym modelem liniowym, który jest jednakowo tolerancyjny, bez względu na szacunkową średnią warunkową.
Matthew Drury,
@Glen_b, czy mogę prosić o wyjaśnienie tego, co powiedziałeś: „stąd, jak dane wprowadzają prawdopodobieństwo”. Czy mówisz, że prawdopodobieństwo dopasowania modelu jest różne dla OLS i POisson (link = tożsamość), gdy jest dopasowywane przy użyciu MLE ?. Tj. Jeśli dopasowujesz OLS za pomocą MLE, czy używasz funkcji prawdopodobieństwa dla rozkładu normalnego, aby obliczyć prawdopodobieństwo dopasowania, w porównaniu z funkcją prawdopodobieństwa z rozkładu Poissona w tym drugim przypadku?
Alex
1
@Alex Right; OLS jest ML na prawdopodobieństwie Gaussa, a prawdopodobieństwo Gaussa nie jest prawdopodobieństwem Poissona
Glen_b