Pozwól nam spekulować prostą sytuację, w której nie ma żadnych zmiennych towarzyszących w twoich danych. Powiedzmy, że masz tylko obserwacje .Y1,Y2,…,Yn∈R
Jeśli używasz normalnej dystrybucji do modelowania swoich danych, prawdopodobnie byś to napisał
Yi∼N(μ,σ2) ,
a następnie spróbuj oszacować i , być może poprzez oszacowanie maksymalnego prawdopodobieństwa.σμσ
Powiedzmy jednak, że Twoje dane są danymi zliczającymi, a zatem nie są normalnie dystrybuowane. Ten przypadek nawet nie jest ciągły, więc zamiast tego możesz użyć rozkładu Poissona:
Yi∼Poisson(λ) .
Masz tutaj jednak tylko jeden parametr! Pojedynczy parametr określa zarówno średnią, jak i wariancję według i . Dzieje się tak również podczas korzystania z Bernoulliego lub rozkładu dwumianowego. Ale możesz mieć większą lub mniejszą wariancję w swoich danych, być może dlatego, że obserwacje nie są tak naprawdę iid lub rozkład, który wybrałeś, nie był wystarczająco realistyczny.λE[Yi]=λVar[Yi]=λ
Dlatego ludzie dodają parametr dyspersji, aby uzyskać dodatkowy stopień swobody w jednoczesnym modelowaniu średniej i wariancji. Wydaje mi się, że jakikolwiek podręcznik na temat GLM da ci bardziej szczegółowe i matematyczne wyjaśnienie tego, co to jest, ale motywacja, jak sądzę, jest dość prosta.