Obecnie mam trudności ze znalezieniem odpowiedniego modelu dla danych trudnych do zliczenia (zmienna zależna). Próbowałem różnych modeli (modele efektów mieszanych są niezbędne dla mojego rodzaju danych), takich jak lmer
i lme4
(z transformacją logarytmiczną), a także uogólnionych liniowych modeli efektów mieszanych z różnymi rodzinami, takimi jak dwumian Gaussa lub ujemny.
Nie jestem jednak pewien, jak prawidłowo zdiagnozować powstałe napady. W Internecie znalazłem wiele różnych opinii na ten temat. Myślę, że diagnostyka regresji liniowej (mieszanej) jest dość prosta. Możesz iść dalej i analizować resztki (normalność), a także badać heteroscedastyczność, wykreślając dopasowane wartości w porównaniu do reszt.
Jednak jak właściwie to zrobić w przypadku wersji uogólnionej? Na razie skupmy się na negatywnej regresji dwumianowej (mieszanej). Widziałem tutaj dość przeciwstawne stwierdzenia dotyczące pozostałości:
W Sprawdzaniu reszt pod kątem normalności w uogólnionych modelach liniowych wskazano w pierwszej odpowiedzi, że zwykłe reszty nie są zwykle rozkładane dla GLM; Myślę, że to jasne. Należy jednak zauważyć, że pozostałości Pearsona i dewiacji również nie powinny być normalne. Jednak druga odpowiedź stwierdza, że reszty odchylenia powinny być normalnie rozkładane (w połączeniu z odniesieniem).
To, że resztki odchyleń powinny być normalnie rozprowadzane, jest jednak wskazane w dokumentacji dla ? Glm.diag.plots (z
boot
pakietu R. ).W tym wpisie na blogu autor najpierw zbadał normalność tego, co, jak zakładam, to pozostałości Pearson dla modelu regresji mieszanych efektów NB. Zgodnie z oczekiwaniami (moim szczerym zdaniem) reszty nie okazały się normalne, a autor założył, że ten model jest źle dopasowany. Jednak, jak stwierdzono w komentarzach, reszty powinny być rozłożone zgodnie z ujemnym rozkładem dwumianowym. Moim zdaniem jest to najbliższe prawdy, ponieważ reszty GLM mogą mieć inne rozkłady niż normalne. Czy to jest poprawne? Jak sprawdzić tutaj takie rzeczy, jak heteroscedastyczność?
Ostatni punkt (wykreślanie reszt względem kwantyli szacowanego rozkładu) podkreślono w Ben i Yohai (2004) . Obecnie wydaje mi się, że tak powinienem pójść.
Krótko mówiąc: w jaki sposób właściwie badasz dopasowanie modelu uogólnionych modeli regresji liniowej (mieszanej), ze szczególnym naciskiem na reszty?
glm.diag.plots
Mówi , że dotyczy to zboczonego odchylenia (podejrzewam, że rozróżnienie jest ważne). Rozumiem również, że masz dane zliczania ; możesz skupić się na tym fakcie. Np. Liczby mają być (w pewnym sensie) heteroscedastyczne. Wykresy diagnostyczne dla regresji zliczania powinny być dla Ciebie pomocne (chociaż nie dotyczą aspektu efektów mieszanych).Odpowiedzi:
Ta odpowiedź nie opiera się na mojej wiedzy, ale raczej cytuje to, co Bolker i in. (2009) napisał we wpływowym artykule w czasopiśmie Trends in Ecology and Evolution . Ponieważ artykuł nie ma otwartego dostępu (chociaż wyszukiwanie go w Google Scholar może się powieść, pomyślałem, że zacytowałem ważne fragmenty, które mogą być pomocne w rozwiązaniu części pytań. Ponownie, to nie jest to, co wymyśliłem, ale myślę, że reprezentuje najlepsze skondensowane informacje o GLMM (w tym diagnostykę) w bardzo prostym i łatwym do zrozumienia stylu pisania. Jeśli w jakikolwiek sposób ta odpowiedź nie jest odpowiednia z jakiegokolwiek powodu, po prostu ją usunę. przydatne w odniesieniu do pytań dotyczących diagnostyki są wyróżnione wpogrubione .
Page 127:
Strona 129, ramka 1:
Page 133, Ramka 4:
Wykresy resztkowe powinny być wykorzystane do oceny naddyspersji, a przekształcone wariancje powinny być jednorodne we wszystkich kategoriach. Nigdzie w artykule nie wspomniano, że reszty powinny być normalnie rozmieszczone.
Myślę, że powód, dla którego istnieją kontrastujące stwierdzenia, odzwierciedla fakt, że GLMM (strony 127-128) ...
A oto kilka w pełni sprawdzonych przykładów wykorzystujących GLMM, w tym diagnostyki.
Zdaję sobie sprawę, że ta odpowiedź bardziej przypomina komentarz i powinna być traktowana jako taka. Ale sekcja komentarzy nie pozwala mi dodać tak długiego komentarza. Ponieważ uważam, że ten artykuł ma wartość dla tej dyskusji (ale niestety za ścianą płatniczą), pomyślałem, że warto tu przytoczyć ważne fragmenty.
Cytowane artykuły:
[15] - GP Quinn, MJ Keough (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press.
[16] - MJ Crawley (2002): Obliczenia statystyczne: wprowadzenie do analizy danych za pomocą S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modele z efektami mieszanymi w S i S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Informacje warunkowe podobne dla modeli z efektami mieszanymi. Biometrika, 92, ss. 351–370.
[50] - A. Gelman, J. Hill (2006): Analiza danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - FJ Harrell (2001): Strategie modelowania regresji, Springer.
[66] - JK Lindsey (1997): Zastosowanie uogólnionych modeli liniowych, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics with S, Springer.
źródło
To stare pytanie, ale pomyślałem, że warto dodać, że opcja 4 sugerowana przez OP jest teraz dostępna w pakiecie DHARMa R (dostępna z CRAN, patrz tutaj ).
Pakiet sprawia, że wizualne kontrole rezydualne sugerowane przez przyjętą odpowiedź są o wiele bardziej niezawodne / łatwe.
Z opisu pakietu:
źródło