W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej.
W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu regresji logistycznej. Po wykopaniu niektórych notatek o kursie dla GLM stwierdza się po prostu, że sprawdzenie reszt nie jest pomocne w przeprowadzeniu diagnozy dopasowania regresji logistycznej.
Rozglądając się po Internecie, wydaje się, że istnieją różne procedury „diagnozy”, takie jak sprawdzanie odchylenia modelu i przeprowadzanie testów chi-kwadrat, ale inne źródła podają, że jest to niewłaściwe i że powinieneś wykonać dobroć dopasowania Hosmer-Lemeshow test. Następnie znajduję inne źródła, które twierdzą, że ten test może być wysoce zależny od rzeczywistych grupowań i wartości odcięcia (może nie być wiarygodny).
Jak więc zdiagnozować dopasowanie regresji logistycznej?
źródło
Odpowiedzi:
Kilka nowszych technik, które spotkałem w celu oceny dopasowania modeli regresji logistycznej, pochodzi z czasopism nauk politycznych:
Obie te techniki mają na celu zastąpienie testów dobroci dopasowania (takich jak Hosmer i Lemeshow) i zidentyfikowanie potencjalnej błędnej specyfikacji (w szczególności nieliniowości zmiennych zawartych w równaniu). Są one szczególnie przydatne, ponieważ często krytykuje się typowe miary dopasowania R-kwadrat .
Oba powyższe artykuły wykorzystują przewidywane prawdopodobieństwa w porównaniu do obserwowanych wyników na wykresach - nieco unikając niejasnego problemu, co jest resztą w takich modelach. Przykładami reszt mogą być udziały w prawdopodobieństwie logarytmicznym lub resztki Pearsona (uważam, że jest ich o wiele więcej). Inną miarą, która często jest interesująca (choć nie resztkowa), są wartości DFBeta (kwota, którą szacunek współczynnika zmienia się, gdy obserwacja jest wykluczona z modelu). Zobacz przykłady w Stata dla tej strony UCLA na temat diagnostyki regresji logistycznej wraz z innymi potencjalnymi procedurami diagnostycznymi.
Nie mam tego pod ręką, ale wierzę, że modele regresji J. Scotta Longa dla zmiennych kategorialnych i ograniczonych zależnych zawierają wystarczająco szczegółowe informacje na temat wszystkich tych różnych środków diagnostycznych w prosty sposób.
źródło
Pytanie nie było wystarczająco dobrze umotywowane. Musi istnieć powód, aby uruchomić diagnostykę modelu, np
Z wyjątkiem sprawdzania rzeczy, które są ortogonalne względem specyfikacji regresji algebraicznej (np. Badanie rozkładu reszt w zwykłych modelach liniowych), diagnostyka modelu może powodować tyle problemów, ile rozwiązują według mnie. Dotyczy to szczególnie binarnego modelu logistycznego, ponieważ nie ma on założeń dystrybucyjnych.
Dlatego zwykle lepiej jest poświęcić czas na określenie modelu, zwłaszcza nie zakładając liniowości dla zmiennych uważanych za silne, dla których żadne wcześniejsze dowody nie sugerują liniowości. W niektórych przypadkach możesz wstępnie określić model, który musi pasować, np. Jeśli liczba predyktorów jest niewielka lub pozwalasz, aby wszystkie predyktory były nieliniowe i (poprawnie) zakładać brak interakcji.
Każdy, kto uważa, że do zmiany modelu można użyć diagnostyki modelu, powinien uruchomić ten proces w pętli ładowania początkowego, aby poprawnie oszacować wywołane niepewności modelu.
źródło
Wątek ten jest dość stary, ale pomyślałem, że warto dodać, że od niedawna można używać pakietu DHARMa R do przekształcania resztek dowolnego GL (M) M w znormalizowaną przestrzeń. Po wykonaniu tej czynności można wizualnie ocenić / przetestować pozostałe problemy, takie jak odchylenia od rozkładu, resztkowa zależność od predyktora, heteroskedastyczność lub autokorelacja w normalny sposób. Przejrzyj winietę opakowania, aby zapoznać się z przykładami, a także innymi pytaniami na CV tutaj i tutaj .
źródło