Moje pytanie ujawnia moje słabe zrozumienie regresji Poissona i ogólnie GLM. Oto kilka fałszywych danych ilustrujących moje pytanie:
### some fake data
x=c(1:14)
y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45)
Niektóre niestandardowe funkcje zwracające psuedo-R2:
### functions of pseudo-R2
psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}
predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}
Pasuje do czterech modeli: OLS, Gaussian GLM z łączem tożsamości, Poisson GLM z łączem logów, Poisson GLM z łączem tożsamości
#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)
summary(mdl.ols)$r.squared
predR2(y, pred.ols)
#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)
psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)
#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log)) #transform
psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)
#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)
psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)
Na koniec wykreśl przewidywania:
#### Plot the Fit
plot(x, y)
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")
Mam 2 pytania:
Wydaje się, że współczynniki i prognozy wychodzące z OLS i Gaussian GLM z łączem tożsamości są dokładnie takie same. Czy to zawsze prawda?
Jestem bardzo zaskoczony, że szacunki i prognozy OLS bardzo różnią się od Poissona GLM z łączem tożsamości . Myślałem, że obie metody spróbują oszacować E (Y | X). Jak wygląda funkcja prawdopodobieństwa, gdy korzystam z łącza tożsamości dla Poissona?
generalized-linear-model
poisson-distribution
William Chiu
źródło
źródło
Odpowiedzi:
Tak, są tym samym. MLE dla Gaussa jest najmniejsze kwadraty, więc kiedy robisz Gaussian GLM z łączem tożsamości, robisz OLS.
a) „ Myślałem, że obie metody spróbują oszacować E (Y | X) ”
Rzeczywiście tak jest, ale sposób szacowania oczekiwań warunkowych w funkcji danych nie jest taki sam. Nawet jeśli zignorujemy rozkład (a zatem sposób, w jaki dane wprowadzają prawdopodobieństwo) i pomyślimy o GLM tylko w kategoriach średniej i wariancji (tak jakby to była tylko regresja ważona), wariancja Poissona wzrasta ze średnią, więc względne wagi obserwacji byłyby inne.
b) „ Jak wygląda funkcja prawdopodobieństwa, gdy korzystam z łącza tożsamości dla Poissona? ”
źródło