Czy ktoś może mi powiedzieć, jak interpretować wykresy „reszty vs dopasowanie”, „normalne q-q”, „lokalizacja skali” i „reszty vs dźwignia”? Dopasowuję dwumianowy GLM, zapisuję go, a następnie kreślę.
30
Czy ktoś może mi powiedzieć, jak interpretować wykresy „reszty vs dopasowanie”, „normalne q-q”, „lokalizacja skali” i „reszty vs dźwignia”? Dopasowuję dwumianowy GLM, zapisuję go, a następnie kreślę.
Odpowiedzi:
R
nie ma odrębnejplot.glm()
metody. Po dopasowaniuglm()
i uruchomieniu modeluplot()
wywołuje on ? Plot.lm , co jest odpowiednie dla modeli liniowych (tzn. Z normalnie rozkładanym terminem błędu).Ogólnie, znaczenia tych wykresów (przynajmniej dla modeli liniowych) można nauczyć się w różnych istniejących wątkach na CV (np .: Resztki vs. Dopasowane ; Wykresy qq w kilku miejscach: 1 , 2 , 3 ; Skala-lokalizacja ; Resztki vs dźwignia ). Jednak interpretacje te nie są zasadniczo ważne, gdy dany model jest regresją logistyczną.
Mówiąc dokładniej, fabuły często „wyglądają śmiesznie” i prowadzą ludzi do przekonania, że coś jest nie tak z modelem, gdy jest on w porządku. Możemy to zobaczyć, patrząc na te wykresy za pomocą kilku prostych symulacji, w których wiemy, że model jest poprawny:
Teraz spójrzmy na wykresy, które otrzymujemy
plot.lm()
:Zarówno wykresy, jak
Residuals vs Fitted
iScale-Location
wykresy wyglądają, jakby były problemy z modelem, ale wiemy, że nie ma żadnych. Te wykresy, przeznaczone dla modeli liniowych, są po prostu często mylące, gdy są używane z modelem regresji logistycznej.Spójrzmy na inny przykład:
Teraz wszystkie działki wyglądają dziwnie.
Co więc pokazują te fabuły?
Residuals vs Fitted
Fabuła może pomóc zobaczyć, na przykład, czy są krzywoliniowe trendy, które pominięte. Ale dopasowanie regresji logistycznej jest z natury krzywoliniowe, więc możesz mieć dziwnie wyglądające trendy w resztkach bez żadnych problemów.Normal Q-Q
Działka pomaga wykryć jeśli reszty mają rozkład normalny. Ale reszty odchylenia nie muszą być normalnie rozłożone, aby model był ważny, więc normalność / nienormalność reszty niekoniecznie mówi ci nic.Scale-Location
Fabuła może pomóc zidentyfikować Heteroskedastyczność. Ale modele regresji logistycznej są z natury dość heteroscedastyczne.Residuals vs Leverage
Może pomóc zidentyfikować błędne. Jednak wartości odstające w regresji logistycznej niekoniecznie objawiają się w taki sam sposób, jak w regresji liniowej, więc wykres ten może, ale nie musi być pomocny w ich identyfikacji.Prosta lekcja „zabierz do domu” polega na tym, że wykresy te mogą być bardzo trudne w użyciu, aby pomóc ci zrozumieć, co się dzieje z twoim modelem regresji logistycznej. Prawdopodobnie najlepiej jest, aby ludzie nie patrzyli na te wykresy podczas regresji logistycznej, chyba że mają znaczne doświadczenie.
źródło
Przeczytaj więcej na temat założeń regresji, ponieważ w wielu aspektach są one podobne (np. Tutaj lub samouczek dotyczący regresji w R tutaj ).
źródło