Na stronie 232 „towarzysza R do regresji stosowanej” notatka Fox i Weisberg
Tylko rodzina Gaussa ma stałą wariancję, a we wszystkich innych GLM wariancja warunkowa y w zależy od
Wcześniej zauważają, że wariancja warunkowa Poissona wynosi a dwumianowa to .
Dla Gaussa jest to znane i często sprawdzane założenie (homoscedastyczność). Podobnie często postrzegam warunkową wariancję Poissona omawianą jako założenie regresji Poissona wraz ze środkami zaradczymi w przypadkach jej naruszenia (np. Ujemny dwumianowy, nadmuchany zero itp.). Jednak nigdy nie widzę omawianej warunkowości dla dwumianu jako założenia regresji logistycznej. Mały Googling nie znalazł o tym żadnej wzmianki.
Czego tu brakuje?
EDYTUJ po komentarzu @whuber:
Zgodnie z sugestią przeglądam Hosmer i Lemeshow. To interesujące i myślę, że pokazuje, dlaczego ja (i być może inni) są zdezorientowani. Na przykład słowa „założenie” nie ma w indeksie książki. Ponadto mamy to (s. 175)
W regresji logistycznej musimy polegać przede wszystkim na ocenie wizualnej, ponieważ rozkład diagnozy pod hipotezą, że model pasuje, jest znany tylko w niektórych ograniczonych ustawieniach
Pokazują całkiem sporo wykresów, ale koncentrują się na wykresach rozrzutu różnych reszt w stosunku do szacowanego prawdopodobieństwa. Wykresy te (nawet dla dobrego modelu, nie mają wzoru „plamistego” charakterystycznego dla podobnych wykresów w regresji OLS i dlatego są trudniejsze do oceny. Ponadto nie wykazują nic podobnego do wykresów kwantylowych.
W R, plot.lm oferuje ładny domyślny zestaw wykresów do oceny modeli; Nie znam ekwiwalentu regresji logistycznej, chociaż może być w jakimś pakiecie. Może to być spowodowane tym, że dla każdego typu modelu potrzebne byłyby różne wykresy. SAS oferuje pewne działki w PROC LOGISTIC.
Z pewnością wydaje się, że jest to obszar potencjalnego zamieszania!
źródło
Odpowiedzi:
Pakiet DHARMa R rozwiązuje ten problem poprzez symulację z dopasowanego modelu w celu przekształcenia resztek dowolnego GL (M) M w znormalizowaną przestrzeń. Po wykonaniu tej czynności można zastosować wszystkie regularne metody wizualnej i formalnej oceny problemów resztkowych (np. Wykresy qq, nadmierna dyspersja, heteroskedastyczność, autokorelacja). Zobacz winietę opakowania, aby zapoznać się z przykładami.
Odnośnie komentarza @Otto_K: jeśli jedynym problemem jest jednorodna naddyspersja, prawdopodobnie łatwiej jest zastosować losowy efekt obserwacyjny, który można wdrożyć za pomocą standardowego dwumianowego GLMM. Myślę jednak, że @PeterFlom martwił się również o heteroskedastyczność, tj. Zmianę parametru dyspersji z pewnymi predyktorami lub prognozami modelowymi. Nie zostanie to wykryte / skorygowane przez standardowe kontrole / korekty nadmiernej dyspersji, ale można to zobaczyć na wykresach resztkowych DHARMa. Aby to poprawić, modelowanie dyspersji jako funkcji czegoś innego w JAGS lub STAN jest obecnie prawdopodobnie jedynym sposobem.
źródło
Wyjaśniany przez Ciebie temat jest często nazywany nadmierną dyspersją . W mojej pracy widziałem możliwe rozwiązanie tego tematu:
Stosując podejście bayesowskie i szacując rozkład dwumianowy. Ma to wielką zaletę w stosunku do innych dystrybucji (wywołanych przez inne priorytety), aby mieć rozwiązanie w formie zamkniętej.
Bibliografia:
źródło