Która diagnostyka może potwierdzić użycie określonej rodziny GLM?

19

To wydaje się takie elementarne, ale zawsze utknąłem w tym momencie…

Większość danych, z którymi mam do czynienia, jest nienormalna, a większość analiz opartych na strukturze GLM. Do mojej obecnej analizy mam zmienną odpowiedzi, która jest „prędkością marszu” (metry / minutę). Łatwo jest mi stwierdzić, że nie mogę korzystać z OLS, ale mam dużą niepewność przy podejmowaniu decyzji, która rodzina (Gamma, Weibull itp.) Jest odpowiednia!

Używam Stata i patrzę na diagnostykę, takie jak resztki i heteroscedastyczność, resztki vs. wartości dopasowane itp.

Zdaję sobie sprawę, że dane zliczeniowe mogą przybrać formę częstości (np. Częstości występowania) i wykorzystały gamma (analogiczne do nadmiernie rozproszonych dyskretnych modeli dwumianowych dyskretnych), ale po prostu chciałbym, aby „strzelający pistolet” powiedział TAK, MASZ PRAWO RODZINA. Czy spojrzenie na znormalizowane wartości resztowe w stosunku do dopasowanych wartości jest jedynym i najlepszym sposobem na to? Chciałbym użyć modelu mieszanego do uwzględnienia pewnej hierarchii danych, ale najpierw muszę ustalić, która rodzina najlepiej opisuje moją zmienną odpowiedzi.

Każda pomoc doceniona. Szczególnie ceniony jest język Stata!

RLang
źródło
4
Chciałbym, żeby„ palący pistolet ”powiedział TAK, MASZ WŁAŚCIWĄ RODZINĘ ” - nic ci tego nie powie. Najlepsze, na co możesz liczyć, to rodzina, która nie jest wyraźnie w błędzie. Istnieje wiele sposobów wyboru rodziny dystrybucyjnej, ale generalnie obejmuje ona kombinację rozważań apriorycznych lub teoretycznych oraz wskazówek z samych danych.
Glen_b

Odpowiedzi:

14

Mam kilka wskazówek:

(1) To, jak reszty powinny się porównywać z dopasowaniami, nie zawsze jest takie oczywiste, dlatego dobrze jest zapoznać się z diagnostyką poszczególnych modeli. Na przykład w modelach regresji logistycznej do oceny dobroci dopasowania używana jest statystyka Hosmera-Lemeshowa; wartości dźwigni wydają się być małe, gdy szacowane szanse są bardzo duże, bardzo małe lub zbliżone; & wkrótce.

(2) Czasami jedną rodzinę modeli można traktować jako szczególny przypadek innej, więc możesz użyć testu hipotezy dla parametru, który pomoże ci wybrać. Na przykład wykładniczy vs Weibull.

(3) Kryterium informacyjne Akaike przydaje się do wyboru między różnymi modelami, w tym do wyboru między różnymi rodzinami.

(4) Wiedza teoretyczna / empiryczna na temat tego, co modelujesz, zawęża pole możliwych modeli.

Ale nie ma automatycznego sposobu na znalezienie „właściwej” rodziny; rzeczywiste dane mogą pochodzić z dystrybucji tak skomplikowanych, jak chcesz, a złożoność modeli, które warto próbować dopasować, wzrasta wraz z ilością posiadanych danych. Jest to nieodłączna część powiedzenia Boxa, że ​​żadne modele nie są prawdziwe, ale niektóre są przydatne.

Komentarz Re @ gunga: wydaje się, że powszechnie stosowany test Hosmera-Lemeshowa jest (a) zaskakująco wrażliwy na wybór pojemników i (b) ogólnie słabszy niż niektóre inne testy przeciwko niektórym istotnym klasom alternatywnych hipotez. Nie ma to wpływu na punkt (1): dobrze jest też być na bieżąco.

Scortchi - Przywróć Monikę
źródło
Dzięki! Twoje sugestie są zwięzłe i dokładne. Jestem ograniczony w rodzinach, których mogę używać ze względu na strukturę mojej zmiennej odpowiedzi (pozytywna, ciągła, ale mocno wypaczona). W rodzinie wykładniczej wydaje się, że gamma jest naprawdę jedyną opcją. W międzyczasie znalazłem przydatne narzędzia NJ Cox, jak pojawia się w Stata Jounal 5 (2): 259-273 - gammafit (szacuje parametry kształtu i skali), a dpplot umożliwia nakładanie wykresu prawdopodobieństwa gęstości i mojej zmiennej odpowiedzi (może być wykonane z wieloma dystrybucjami i pozwala mi dopasować najlepszą rodzinę do moich danych). Dziękuję również za inne sugestie!
RLang
1
Zauważ, że wykazano, że test GoF Hosmer-Lemeshow zależy od zastosowanego binowania / jest zawodny.
Gung - Przywróć Monikę
@ Gung, To wyraźnie zależy od zastosowanego binowania - nie jest to idealne, ale nie jestem pewien, że to duży problem, chyba że zaczniesz majstrować przy binnings, aby spróbować uzyskać pożądany rezultat. Jak to jest zawodne i jakie inne testy są lepsze?
Scortchi - Przywróć Monikę
1
Zobacz odpowiedź Franka Harrella: stopniowy wybór modelu, statystyki Hosmera-Lemeshowa i sukces prognozowania modelu w zagnieżdżonej regresji logistycznej w R w celu omówienia tych zagadnień.
gung - Przywróć Monikę
1
Masz rację, że „nieważny” jest zbyt silny; Powiedziałem tylko „niewiarygodne”, a Harrell używa „przestarzałych”.
gung - Przywróć Monikę
8

Może się okazać, że to interesujące przeczytać winiety (ręczne wprowadzenie) dla pakietu R fitdistrplus. Rozumiem, że wolisz pracować w Stacie, ale myślę, że winieta będzie wystarczająco zrozumiała, aby uzyskać wgląd w proces wnioskowania rodzin dystrybucyjnych na podstawie danych. Prawdopodobnie będziesz w stanie wdrożyć niektóre pomysły w Stata za pomocą własnego kodu. W szczególności myślę, że wykres Cullen i Frey, jeśli jest / mógłby zostać zaimplementowany w Stacie, może być dla ciebie pomocny.

gung - Przywróć Monikę
źródło
Znów wróciłem do tego problemu i przestawiłem się na R i używam Zuur i Ieno jako wskazówki. Nadal wiele problemów, ale generalnie myślę, że używając varIdent moja diagnostyka modelu wygląda tak, jakby miały „niewielką niejednorodność”. Wykreślanie reszt względem dopasowanego wygląda dobrze, rezystancja względem każdej zmiennej towarzyszącej zapewnia pewne funky wyniki dla jednej z moich zmiennych modelu (elewacja) - głównie funkcja małej wielkości próbki przy dużej wysokości. Dziękujemy za komentarz na temat fitdistrplus. Teraz, gdy używam R i Rstudio (uwielbiam to!), To się przyda!
RLang
1
Link jest zepsuty. Czy to podręcznik wprowadzający, o którym mówiłeś? cran.r-project.org/doc/contrib/Ricci-distribution-en.pdf A może to ten: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch
Ten ostatni link wydaje się być inną wersją winiety, o której mówiłem.
Gung - Przywróć Monikę