Interpretowanie resztkowych wykresów diagnostycznych dla modeli GLM?

33

Szukam wskazówek, jak interpretować wykresy resztkowe modeli GLM. Szczególnie modele Poissona, ujemne dwumianowe, dwumianowe. Czego możemy oczekiwać od tych wykresów, gdy modele są „poprawne”? (na przykład oczekujemy wzrostu wariancji wraz ze wzrostem przewidywanej wartości, na przykład w przypadku modelu Poissona)

Wiem, że odpowiedzi zależą od modeli. Wszelkie odniesienia (lub ogólne punkty do rozważenia) będą pomocne / mile widziane.

Tal Galili
źródło

Odpowiedzi:

16

Myślę, że jest to jedna z najtrudniejszych części podczas analizy regresji. Walczę też z większością interpretacji (w szczególności diagnostyka dwumianowa jest szalona!).

Właśnie natknąłem się na ten post http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, który również linkował http://statmaster.sdu.dk/courses/st111/module04/index.html # SEKCJA00020000000000000000

to, co najbardziej mi pomaga, to wykreślić resztki względem każdego uwzględnionego parametru predykcyjnego ORAZ nie uwzględnionego w modelu. Oznacza to również tych, którzy zostali wcześniej porzuceni z powodów wielokolonowości. Dla tego wykresu pudełkowego warunkowe wykresy rozrzutu i normalne wykresy rozrzutu są świetne. pomaga to dostrzec możliwe błędy

W „Forest Analytics with R” (seria UseR) znajduje się kilka dobrych wyjaśnień, jak interpretować resztki dla modeli efektów mieszanych (i także glms). Dobra lektura! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Pewnego dnia pomyślałem o stronie internetowej, która może gromadzić resztkowe wzorce, które użytkownicy mogą głosować na „w porządku” i na „nie w porządku”. ale nigdy nie znalazłem tej strony;)

Jens
źródło
8

Sugerowałbym metody opisane w:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Istnieje kilka różnych pomysłów, ale najczęściej sprowadzają się one do symulacji danych, w których wiesz, jaki jest prawdziwy związek, a związek ten opiera się na analizie rzeczywistych danych. Następnie porównujesz diagnostykę z rzeczywistych danych z diagnostyką symulowanych zestawów danych. vis.testFunkcji w pakiecie dla TeachingDemos R implementuje zmianę 1 sugestii w papierze. Przeczytaj cały artykuł (nie tylko moje bardzo krótkie podsumowanie) dla lepszego zrozumienia.

Greg Snow
źródło
Myślę, że jest to dobra sugestia, aby zobaczyć wzorce, które odbiegają od losowych w rozproszeniu lub innych wykresach, ale to nie jedyny cel podczas przeglądania reszt. Często interesują nas szczególne odchylenia od losowości (np. Hetereoscedastyczność, błędnie określona nieliniowość w modelu, zmienne pominięte, wartości odstające lub wysokie wartości dźwigni itp.). Porównania z losowo generowanymi danymi tak naprawdę nie pomagają w ustaleniu, dlaczego reszty nie są przypadkowe, ani lekarstwem.
Andy W
@ AndyW, myślę, że interpretujemy oryginalne pytanie inaczej. Moja odpowiedź zaczyna badacza od poinformowania go, czy jest coś, czego powinni szukać, lub czy resztkowy wykres jest rozsądny. Co zrobić, jeśli nie wygląda to rozsądnie, to następny krok i poza moją odpowiedzią (chociaż niektóre dodatkowe założenia można porównać przy użyciu nowego zestawu symulacji).
Greg Snow
5

To pytanie jest dość stare, ale pomyślałem, że warto dodać, że od niedawna można używać pakietu DHARMa R do przekształcania resztek dowolnego GL (M) M w znormalizowaną przestrzeń. Po wykonaniu tej czynności można wizualnie ocenić / przetestować pozostałe problemy, takie jak odchylenia od rozkładu, resztkowa zależność od predyktora, heteroskedastyczność lub autokorelacja w normalny sposób. Przejrzyj winietę opakowania, aby zapoznać się z przykładami, a także innymi pytaniami na CV tutaj i tutaj .

Florian Hartig
źródło