Parametr dyspersji na wyjściu GLM

11

Uruchomiłem glm w R, i summary()mówi, że w pobliżu dolnej części wyjścia

(Dispersion parameter for gaussian family taken to be 28.35031)

Zrobiłem trochę szperania w Google i dowiedziałem się, że parametr dyspersji służy do dopasowania do standardowych błędów. Mam nadzieję, że ktoś mógłby podać więcej szczegółów na temat parametru dyspersji i tego, jak należy go interpretować?

luciano
źródło

Odpowiedzi:

9

Jednym ze sposobów na zbadanie tego jest wypróbowanie dopasowania tego samego modelu przy użyciu różnych narzędzi, oto jeden przykład:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Widać więc, że rezydualny błąd standardowy modelu liniowego jest tylko pierwiastkiem kwadratowym dyspersji z glm, innymi słowy dyspersja (dla modeli Gaussa) jest taka sama jak średni błąd kwadratowy.

Greg Snow
źródło
4

Pozwól nam spekulować prostą sytuację, w której nie ma żadnych zmiennych towarzyszących w twoich danych. Powiedzmy, że masz tylko obserwacje .Y1,Y2,,YnR

Jeśli używasz normalnej dystrybucji do modelowania swoich danych, prawdopodobnie byś to napisał

YiN(μ,σ2) ,

a następnie spróbuj oszacować i , być może poprzez oszacowanie maksymalnego prawdopodobieństwa.σμσ

Powiedzmy jednak, że Twoje dane są danymi zliczającymi, a zatem nie są normalnie dystrybuowane. Ten przypadek nawet nie jest ciągły, więc zamiast tego możesz użyć rozkładu Poissona:

YiPoisson(λ) .

Masz tutaj jednak tylko jeden parametr! Pojedynczy parametr określa zarówno średnią, jak i wariancję według i . Dzieje się tak również podczas korzystania z Bernoulliego lub rozkładu dwumianowego. Ale możesz mieć większą lub mniejszą wariancję w swoich danych, być może dlatego, że obserwacje nie są tak naprawdę iid lub rozkład, który wybrałeś, nie był wystarczająco realistyczny.λE[Yi]=λVar[Yi]=λ

Dlatego ludzie dodają parametr dyspersji, aby uzyskać dodatkowy stopień swobody w jednoczesnym modelowaniu średniej i wariancji. Wydaje mi się, że jakikolwiek podręcznik na temat GLM da ci bardziej szczegółowe i matematyczne wyjaśnienie tego, co to jest, ale motywacja, jak sądzę, jest dość prosta.

d_ijk_stra
źródło