Nadmierna dyspersja w regresji logistycznej

14

Próbuję zrozumieć koncepcję nadmiernej dyspersji w regresji logistycznej. Czytałem, że nadmierna dyspersja występuje wtedy, gdy zaobserwowana wariancja zmiennej odpowiedzi jest większa niż można by oczekiwać po rozkładzie dwumianowym.

Ale jeśli zmienna dwumianowa może mieć tylko dwie wartości (1/0), to jak może mieć średnią i wariancję?

Nie przeszkadza mi obliczanie średniej i wariancji sukcesów z x liczby prób Bernoulliego. Ale nie mogę owinąć głowy koncepcją średniej i wariancji zmiennej, która może mieć tylko dwie wartości.

Czy ktoś może zapewnić intuicyjny przegląd:

  1. Pojęcie średniej i wariancji w zmiennej, która może mieć tylko dwie wartości
  2. Pojęcie nadmiernej dyspersji w zmiennej, która może mieć tylko dwie wartości
luciano
źródło
1
Dodaj 20 wartości , gdzie 10 to a 10 to . Czy możesz podzielić to przez 20? Czy potrafisz obliczyć sd ? 0 1 yy01y
Sycorax mówi Przywróć Monikę
Ładnie mówiąc, więc uważam, że to średnia = 0,5, odchylenie standardowe = 0,11.
luciano
Powiedzmy, że moja zmienna odpowiedzi miała 100 sukcesów i 5 porażek. Czy to może być przesadzone?
luciano
luciano, potrzebujesz więcej niż jednej realizacji eksperymentu, aby ustalić, czy jest on rozproszony.
Underminer

Odpowiedzi:

10

Dwumianowa zmienna losowa z próbami i prawdopodobieństwem sukcesu może przyjąć więcej niż dwie wartości. Dwumianowa zmienna losowa reprezentuje liczbę sukcesów w tych próbach i może w rzeczywistości przyjmować różnych wartości ( ). Jeśli więc wariancja tego rozkładu jest większa, niż można się było spodziewać przy założeniach dwumianowych (być może są na przykład nadwyżki zer), jest to przypadek nadmiernej dyspersji. P N N + 1 0 , 1 , 2 , 3 , . . . , NNpNN+10,1,2,3,...,N

Nadmierna dyspersja nie ma sensu dla losowej zmiennej Bernoulliego ( )N=1

W kontekście krzywej regresji logistycznej można rozważyć „mały wycinek” lub pogrupowanie według wąskiego zakresu wartości predykcyjnych jako realizację eksperymentu dwumianowego (być może mamy 10 punktów w wycinku z pewną liczbą sukcesy i porażki). Chociaż tak naprawdę nie mamy wielu prób dla każdej wartości predyktora i patrzymy na proporcje zamiast surowych zliczeń, nadal oczekujemy, że proporcja każdego z tych „segmentów” będzie zbliżona do krzywej. Jeśli te „wycinki” mają tendencję do oddalania się od krzywej, występuje zbyt duża zmienność w rozkładzie. Grupując obserwacje, tworzysz realizacje losowych zmiennych dwumianowych zamiast osobno patrząc na dane 0/1.

Poniższy przykład pochodzi z innego pytania na tej stronie. Załóżmy, że niebieskie linie reprezentują oczekiwaną proporcję w zakresie zmiennych predyktorów. Niebieskie komórki wskazują zaobserwowane przypadki (w tym przypadku szkoły). Zapewnia to graficzną reprezentację tego, jak może wyglądać nadmierna dyspersja . Zauważ, że istnieją błędy w interpretacji komórek na poniższym wykresie, ale daje wyobrażenie o tym, w jaki sposób może przejawiać się nadmierna dyspersja.

Przykład nadmiernej dyspersji

Underminer
źródło
1
Ale jestem zainteresowany nadmierną dyspersją w kontekście regresji logistycznej. Dla każdej wartości zmiennej predykcyjnej w regresji logistycznej nie ma n prób, jest tylko jedna próba. Rezultatem tej próby jest albo sukces, albo
porażka
Właśnie dodałem akapit dotyczący intuicji stojącej za nadmierną dyspersją w kontekście regresji liniowej.
Underminer
1
Nieokreślony, próbuję sobie wyobrazić, co rozumiesz przez to zdanie: „Jeśli te„ wycinki ”mają tendencję do oddalania się od krzywej, występuje zbyt duża zmienność w rozkładzie”. Oto, co myślę, że masz na myśli: w wycinku na krzywej, gdzie mówi się o prawdopodobieństwie sukcesu 0,1-0,3, jest wiele sukcesów, aw wycinku na krzywej, gdzie mówi się, że prawdopodobieństwo sukcesu wynosi 0,7-0,9, jest wiele zawodzi. Czy to masz na myśli i czy oznaczałoby to nadmierną dyspersję?
luciano
1
@luciano To jest właściwy pomysł. Pamiętaj jednak, że musi istnieć równowaga „wycinków”, które znajdują się zbyt daleko powyżej i zbyt daleko pod krzywą, aby dopasowanie miało miejsce w pierwszej kolejności. Bardziej realistyczne może być stwierdzenie, że wycinek około 0,7 ma zbyt wiele sukcesów (może 100%), a następny wycinek około 0,75 ma zbyt mało (50%), a następnie 0,80 ma zbyt wiele (100%) itd. Więc jest zaobserwowano więcej wariancji, niż można by się spodziewać.
Underminer
Mam cię, dobrze wyjaśnione
luciano
7

Jak już zauważyli inni, nadmierna dyspersja nie ma zastosowania w przypadku zmiennej Bernoulliego (0/1), ponieważ w tym przypadku średnia koniecznie określa wariancję. W kontekście regresji logistycznej oznacza to, że jeśli wynik jest binarny, nie można oszacować parametru dyspersji. (Uwaga: nie oznacza to, że można zignorować potencjalną korelację między obserwacjami tylko dlatego, że wynik jest binarny!)

Jeśli z drugiej strony wynik jest zbiorem proporcji, można oszacować parametr dyspersji (który, choć często większy niż jeden, może być również mniejszy niż jeden), dzieląc statystyki chi-kwadrat Pearsona (lub dewiację ) według pozostałych stopni swobody.

Pamiętaj, że regresja logistyczna z wynikiem czysto binarnym jest tylko szczególnym przypadkiem bardziej ogólnego modelu regresji logistycznej, w którym indeks dwumianowy może przekraczać jeden (i może się różnić w zależności od obserwacji). Zatem pytanie, czy dopasowujesz model regresji logistycznej, czy nie, nie ma związku z pytaniem, czy Twoje dane są nadmiernie rozproszone.

Phil Schumm
źródło