Próbuję zrozumieć koncepcję nadmiernej dyspersji w regresji logistycznej. Czytałem, że nadmierna dyspersja występuje wtedy, gdy zaobserwowana wariancja zmiennej odpowiedzi jest większa niż można by oczekiwać po rozkładzie dwumianowym.
Ale jeśli zmienna dwumianowa może mieć tylko dwie wartości (1/0), to jak może mieć średnią i wariancję?
Nie przeszkadza mi obliczanie średniej i wariancji sukcesów z x liczby prób Bernoulliego. Ale nie mogę owinąć głowy koncepcją średniej i wariancji zmiennej, która może mieć tylko dwie wartości.
Czy ktoś może zapewnić intuicyjny przegląd:
- Pojęcie średniej i wariancji w zmiennej, która może mieć tylko dwie wartości
- Pojęcie nadmiernej dyspersji w zmiennej, która może mieć tylko dwie wartości
Odpowiedzi:
Dwumianowa zmienna losowa z próbami i prawdopodobieństwem sukcesu może przyjąć więcej niż dwie wartości. Dwumianowa zmienna losowa reprezentuje liczbę sukcesów w tych próbach i może w rzeczywistości przyjmować różnych wartości ( ). Jeśli więc wariancja tego rozkładu jest większa, niż można się było spodziewać przy założeniach dwumianowych (być może są na przykład nadwyżki zer), jest to przypadek nadmiernej dyspersji. P N N + 1 0 , 1 , 2 , 3 , . . . , NN p N N+1 0,1,2,3,...,N
Nadmierna dyspersja nie ma sensu dla losowej zmiennej Bernoulliego ( )N=1
W kontekście krzywej regresji logistycznej można rozważyć „mały wycinek” lub pogrupowanie według wąskiego zakresu wartości predykcyjnych jako realizację eksperymentu dwumianowego (być może mamy 10 punktów w wycinku z pewną liczbą sukcesy i porażki). Chociaż tak naprawdę nie mamy wielu prób dla każdej wartości predyktora i patrzymy na proporcje zamiast surowych zliczeń, nadal oczekujemy, że proporcja każdego z tych „segmentów” będzie zbliżona do krzywej. Jeśli te „wycinki” mają tendencję do oddalania się od krzywej, występuje zbyt duża zmienność w rozkładzie. Grupując obserwacje, tworzysz realizacje losowych zmiennych dwumianowych zamiast osobno patrząc na dane 0/1.
Poniższy przykład pochodzi z innego pytania na tej stronie. Załóżmy, że niebieskie linie reprezentują oczekiwaną proporcję w zakresie zmiennych predyktorów. Niebieskie komórki wskazują zaobserwowane przypadki (w tym przypadku szkoły). Zapewnia to graficzną reprezentację tego, jak może wyglądać nadmierna dyspersja . Zauważ, że istnieją błędy w interpretacji komórek na poniższym wykresie, ale daje wyobrażenie o tym, w jaki sposób może przejawiać się nadmierna dyspersja.
źródło
Jak już zauważyli inni, nadmierna dyspersja nie ma zastosowania w przypadku zmiennej Bernoulliego (0/1), ponieważ w tym przypadku średnia koniecznie określa wariancję. W kontekście regresji logistycznej oznacza to, że jeśli wynik jest binarny, nie można oszacować parametru dyspersji. (Uwaga: nie oznacza to, że można zignorować potencjalną korelację między obserwacjami tylko dlatego, że wynik jest binarny!)
Jeśli z drugiej strony wynik jest zbiorem proporcji, można oszacować parametr dyspersji (który, choć często większy niż jeden, może być również mniejszy niż jeden), dzieląc statystyki chi-kwadrat Pearsona (lub dewiację ) według pozostałych stopni swobody.
Pamiętaj, że regresja logistyczna z wynikiem czysto binarnym jest tylko szczególnym przypadkiem bardziej ogólnego modelu regresji logistycznej, w którym indeks dwumianowy może przekraczać jeden (i może się różnić w zależności od obserwacji). Zatem pytanie, czy dopasowujesz model regresji logistycznej, czy nie, nie ma związku z pytaniem, czy Twoje dane są nadmiernie rozproszone.
źródło