Próbuję dopasować dane do GLM (regresja Poissona) w R. Kiedy wykreśliłem reszty w stosunku do dopasowanych wartości, wykres utworzył wiele (prawie liniowych z lekką wklęsłą krzywą) „linii”. Co to znaczy?
library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor +
freerepa + illness + actdays + hscore + chcond1 + chcond2,
family=poisson, data=dvisits)
plot(modl)
homework
odkąd mówiłeś o zadaniu.table(dvisits$doctorco)
. Co odpowiada 10 zakrzywionym liniom na wykresie w tej tabeli? Ponadto, przy ponad 5000 obserwacji, nie przejmuj się zbytnio dopasowaniem 13 współczynników regresji.Odpowiedzi:
Takiego wyglądu można się spodziewać po takim wykresie, gdy zmienna zależna jest dyskretna.
Każdy krzywoliniowy ślad punktów na wykresie odpowiada stałej wartości zmiennej zależnej y . Każdy przypadek, gdzie y = k ma przewidywania y ; resztkową - z definicji - jest równy k - y . Działka k - r w stosunku do Y jest oczywiście linia z nachylenia - 1 . Regresję Poissona osi x przedstawiono na skali logarytmicznej: to jest log ( Y ) . Krzywe wyginają się teraz wykładniczo. Jak kk y y= k y^ k - y^ k - y^ y^ - 1 log( y^) k zmienia się, krzywe te rosną o wartości całkowite. Wykładanie ich daje zestaw quasi-równoległych krzywych. (Aby to udowodnić, wykres zostanie wyraźnie skonstruowany poniżej, oddzielnie kolorując punkty wartościami .)y
Możemy odtworzyć ten wykres dość dokładnie za pomocą podobnego, ale arbitralnego modelu (przy użyciu małych współczynników losowych):
źródło
Czasami takie paski na wykresach rezydualnych reprezentują punkty o (prawie) identycznych obserwowanych wartościach, które otrzymują różne prognozy. Spójrz na swoje wartości docelowe: ile to jest unikalnych wartości? Jeśli moja sugestia jest poprawna, zestaw danych treningowych powinien zawierać 9 unikalnych wartości.
źródło
Ten wzór jest charakterystyczny dla niepoprawnego dopasowania rodziny i / lub linku. Jeśli masz nadmiernie rozproszone dane, być może powinieneś rozważyć ujemne rozkłady dwumianowe (liczba) lub gamma (ciągłe). Powinieneś także rysować swoje reszty względem przekształconego predyktora liniowego, a nie predyktorów, gdy używasz uogólnionych modeli liniowych. Aby przekształcić predyktor Poissona, musisz wziąć 2-krotność pierwiastka kwadratowego predyktora liniowego i wykreślić z niego swoje reszty. Resztki ponadto nie powinny być wyłącznie resztkami gruszkowatymi, spróbuj resztek odchyleń i resztek studenckich.
źródło