Założenia uogólnionych modeli liniowych

9

Na stronie 232 „towarzysza R do regresji stosowanej” notatka Fox i Weisberg

Tylko rodzina Gaussa ma stałą wariancję, a we wszystkich innych GLM wariancja warunkowa y w zależy odxμ(x)

Wcześniej zauważają, że wariancja warunkowa Poissona wynosi a dwumianowa to .μμ(1μ)N

Dla Gaussa jest to znane i często sprawdzane założenie (homoscedastyczność). Podobnie często postrzegam warunkową wariancję Poissona omawianą jako założenie regresji Poissona wraz ze środkami zaradczymi w przypadkach jej naruszenia (np. Ujemny dwumianowy, nadmuchany zero itp.). Jednak nigdy nie widzę omawianej warunkowości dla dwumianu jako założenia regresji logistycznej. Mały Googling nie znalazł o tym żadnej wzmianki.

Czego tu brakuje?

EDYTUJ po komentarzu @whuber:

Zgodnie z sugestią przeglądam Hosmer i Lemeshow. To interesujące i myślę, że pokazuje, dlaczego ja (i być może inni) są zdezorientowani. Na przykład słowa „założenie” nie ma w indeksie książki. Ponadto mamy to (s. 175)

W regresji logistycznej musimy polegać przede wszystkim na ocenie wizualnej, ponieważ rozkład diagnozy pod hipotezą, że model pasuje, jest znany tylko w niektórych ograniczonych ustawieniach

Pokazują całkiem sporo wykresów, ale koncentrują się na wykresach rozrzutu różnych reszt w stosunku do szacowanego prawdopodobieństwa. Wykresy te (nawet dla dobrego modelu, nie mają wzoru „plamistego” charakterystycznego dla podobnych wykresów w regresji OLS i dlatego są trudniejsze do oceny. Ponadto nie wykazują nic podobnego do wykresów kwantylowych.

W R, plot.lm oferuje ładny domyślny zestaw wykresów do oceny modeli; Nie znam ekwiwalentu regresji logistycznej, chociaż może być w jakimś pakiecie. Może to być spowodowane tym, że dla każdego typu modelu potrzebne byłyby różne wykresy. SAS oferuje pewne działki w PROC LOGISTIC.

Z pewnością wydaje się, że jest to obszar potencjalnego zamieszania!

Peter Flom
źródło
3
Jeśli masz kopię Hosmer & Lemeshow, Zastosowana regresja logistyczna, zapoznaj się z rozdziałem „Ocena dopasowania modelu”: warunkowa wariancja dwumianu pojawia się wszędzie i jest wyraźnie uwzględniona w prawie wszystkich testach GoF.
whuber
1
Myślę, że dwumianowe założenie jest narzucone przez prawdziwy eksperyment: odpowiedzi są niezależne 0/1, więc rozkład dwumianowy jest jedynym, który modeluje prawdziwy eksperyment. Przeciwnie, założenie rozkładu Poissona dla zliczeń nie jest realistyczne.
Stéphane Laurent,
1
Dzięki @whuber. Mam tę książkę i sprawdzę ją
Peter Flom
... ale funkcja link nie jest naturalna i determinuje wariancję warunkową ... więc mój powyższy komentarz nie był zbyt rozsądny
Stéphane Laurent,

Odpowiedzi:

3

Wykresy te (nawet dla dobrego modelu, nie mają wzoru „plamistego” charakterystycznego dla podobnych wykresów w regresji OLS i dlatego są trudniejsze do oceny. Ponadto nie wykazują nic podobnego do wykresów kwantylowych.

Pakiet DHARMa R rozwiązuje ten problem poprzez symulację z dopasowanego modelu w celu przekształcenia resztek dowolnego GL (M) M w znormalizowaną przestrzeń. Po wykonaniu tej czynności można zastosować wszystkie regularne metody wizualnej i formalnej oceny problemów resztkowych (np. Wykresy qq, nadmierna dyspersja, heteroskedastyczność, autokorelacja). Zobacz winietę opakowania, aby zapoznać się z przykładami.

Odnośnie komentarza @Otto_K: jeśli jedynym problemem jest jednorodna naddyspersja, prawdopodobnie łatwiej jest zastosować losowy efekt obserwacyjny, który można wdrożyć za pomocą standardowego dwumianowego GLMM. Myślę jednak, że @PeterFlom martwił się również o heteroskedastyczność, tj. Zmianę parametru dyspersji z pewnymi predyktorami lub prognozami modelowymi. Nie zostanie to wykryte / skorygowane przez standardowe kontrole / korekty nadmiernej dyspersji, ale można to zobaczyć na wykresach resztkowych DHARMa. Aby to poprawić, modelowanie dyspersji jako funkcji czegoś innego w JAGS lub STAN jest obecnie prawdopodobnie jedynym sposobem.

Florian Hartig
źródło
1

Wyjaśniany przez Ciebie temat jest często nazywany nadmierną dyspersją . W mojej pracy widziałem możliwe rozwiązanie tego tematu:

Stosując podejście bayesowskie i szacując rozkład dwumianowy. Ma to wielką zaletę w stosunku do innych dystrybucji (wywołanych przez inne priorytety), aby mieć rozwiązanie w formie zamkniętej.

Bibliografia:

Otto_K
źródło