Interpretacja wykresu reszt względem dopasowanych wartości z regresji Poissona

25

Próbuję dopasować dane do GLM (regresja Poissona) w R. Kiedy wykreśliłem reszty w stosunku do dopasowanych wartości, wykres utworzył wiele (prawie liniowych z lekką wklęsłą krzywą) „linii”. Co to znaczy?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

wprowadź opis zdjęcia tutaj

jocelyn
źródło
Nie wiem, czy możesz załadować fabułę (czasami nowicjusze nie mogą), ale jeśli nie, możesz przynajmniej dodać trochę danych i kod R do swojego pytania, aby ludzie mogli to ocenić?
gung - Przywróć Monikę
Jocelyn, zaktualizowałem twój post o informacje, które umieściłeś w komentarzu. Oznacziłem to również jako homeworkodkąd mówiłeś o zadaniu.
chl
spróbuj plot (jitter (mod1)), aby sprawdzić, czy wykres jest bardziej czytelny. Dlaczego nie zdefiniujesz dla nas resztek i nie zgadniesz, jak interpretujesz wykres samodzielnie.
Michael Bishop
1
Na podstawie pytania zakładam, że rozumiesz rozkład Poissona i reg Pois, i co mówi Ci wykres wartości resztkowych względem dopasowanych (zaktualizuj, jeśli to źle), więc zastanawiasz się po prostu nad dziwnym wyglądem punktów na działce. B / c to zadanie domowe, nie do końca odpowiadamy jako nasza ogólna polityka, ale udzielamy wskazówek. Zauważam, że masz wiele zmiennych towarzyszących, zastanawiam się, czy masz 1 ciągłe i wiele zmiennych binarnych.
gung - Przywróć Monikę
1
Dwie kontynuacje komentarza Gunga. Najpierw spróbuj table(dvisits$doctorco). Co odpowiada 10 zakrzywionym liniom na wykresie w tej tabeli? Ponadto, przy ponad 5000 obserwacji, nie przejmuj się zbytnio dopasowaniem 13 współczynników regresji.
gość

Odpowiedzi:

29

Takiego wyglądu można się spodziewać po takim wykresie, gdy zmienna zależna jest dyskretna.

Każdy krzywoliniowy ślad punktów na wykresie odpowiada stałej wartości zmiennej zależnej y . Każdy przypadek, gdzie y = k ma przewidywania y ; resztkową - z definicji - jest równy k - y . Działka k - r w stosunku do Y jest oczywiście linia z nachylenia - 1 . Regresję Poissona osi x przedstawiono na skali logarytmicznej: to jest log ( Y ) . Krzywe wyginają się teraz wykładniczo. Jak kkyy=ky^k-y^k-y^y^-1log(y^)kzmienia się, krzywe te rosną o wartości całkowite. Wykładanie ich daje zestaw quasi-równoległych krzywych. (Aby to udowodnić, wykres zostanie wyraźnie skonstruowany poniżej, oddzielnie kolorując punkty wartościami .)y

Możemy odtworzyć ten wykres dość dokładnie za pomocą podobnego, ale arbitralnego modelu (przy użyciu małych współczynników losowych):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Resztki vs. dopasowane

Whuber
źródło
6
(+1) Kolor bardzo dobrze pokazuje, co się dzieje.
kardynał
Czy powyższa fabuła dotyczy? Teksty (modelowanie statystyczne dla badaczy biomedycznych: proste wprowadzenie do analizy danych złożonych, Dupont, 2002, s. 316, np.) Wskazują, że wykres dopasowany vs. resztkowy powinien być wyśrodkowany wokół zerowej linii resztkowej, a każdy z wentylatorów (jeśli jest surowy resztki) lub nie (jeśli odchylenie, np.). Przy ograniczonym zakresie zliczeń w zmiennej wynikowej otrzymujesz te pasma i, podobnie jak w powyższym wykresie, nie są one wyśrodkowane wokół linii w punkcie y = 0. Skąd wiemy, że wykres resztkowy OP (lub wykres przykładowy wykonane w tej odpowiedzi) wskazuje, że model dobrze pasuje do danych?
Meg
1
@Meg Ta rada nie dotyczy bezpośrednio pozostałości GLM. Zauważ, że model użyty do zilustrowania tej odpowiedzi jest znany jako prawidłowy, ponieważ jest to ten, którego użyto do wygenerowania danych.
whuber
1/2: Dzięki @whuber. Rozumiem, że dla tej odpowiedzi wiadomo, że model jest poprawny, ponieważ dane zostały zasymulowane z danego rozkładu, ale w praktyce jest nieznany (jak w poście PO). Ponadto, co pisałem o pozostałości ma zastosowanie do POI regresji (nie wszystkie GLMs, nie, ale ten jeden) - odniesienie dałem omawiał regresji POI konkretnie. Widziałem tylko teksty pokazujące standaryzowane reszty punktów POI (Pearson lub dewiacje, np.) Wyśrodkowane wokół y = 0, więc nie jestem pewien, czego powinienem szukać, ponieważ dla tego modelu (co jest oczywiście poprawne) wykres wygląda nic takiego.
Meg
2/2: Czy masz jakieś referencje, które przypadkiem dokładniej omawiają pozostałości POI?
Meg
8

Czasami takie paski na wykresach rezydualnych reprezentują punkty o (prawie) identycznych obserwowanych wartościach, które otrzymują różne prognozy. Spójrz na swoje wartości docelowe: ile to jest unikalnych wartości? Jeśli moja sugestia jest poprawna, zestaw danych treningowych powinien zawierać 9 unikalnych wartości.

Boris Gorelik
źródło
1
0,1,,9
-3

Ten wzór jest charakterystyczny dla niepoprawnego dopasowania rodziny i / lub linku. Jeśli masz nadmiernie rozproszone dane, być może powinieneś rozważyć ujemne rozkłady dwumianowe (liczba) lub gamma (ciągłe). Powinieneś także rysować swoje reszty względem przekształconego predyktora liniowego, a nie predyktorów, gdy używasz uogólnionych modeli liniowych. Aby przekształcić predyktor Poissona, musisz wziąć 2-krotność pierwiastka kwadratowego predyktora liniowego i wykreślić z niego swoje reszty. Resztki ponadto nie powinny być wyłącznie resztkami gruszkowatymi, spróbuj resztek odchyleń i resztek studenckich.

Ryan Barnhart
źródło
3
Po co 2-krotność pierwiastka kwadratowego, skoro kanonicznym ogniwem rodziny Poissona w glm jest log? Czy nie powinien to być exp () predyktora liniowego? Ale nie rozumiem, na czym polega problem z wykreślaniem reszt w stosunku do samego liniowego predyktora, co myślę, że to, co się tutaj robi - być może mógłbyś to rozwinąć.
Peter Ellis,
Czy mógłbyś wyjaśnić, który aspekt „wzorca” zwraca uwagę na możliwe błędne specyfikacje modelu, Ryan? Wydaje się to być subtelną rzeczą, ale potencjalnie jest ważnym wglądem.
whuber