To wydaje się takie elementarne, ale zawsze utknąłem w tym momencie…
Większość danych, z którymi mam do czynienia, jest nienormalna, a większość analiz opartych na strukturze GLM. Do mojej obecnej analizy mam zmienną odpowiedzi, która jest „prędkością marszu” (metry / minutę). Łatwo jest mi stwierdzić, że nie mogę korzystać z OLS, ale mam dużą niepewność przy podejmowaniu decyzji, która rodzina (Gamma, Weibull itp.) Jest odpowiednia!
Używam Stata i patrzę na diagnostykę, takie jak resztki i heteroscedastyczność, resztki vs. wartości dopasowane itp.
Zdaję sobie sprawę, że dane zliczeniowe mogą przybrać formę częstości (np. Częstości występowania) i wykorzystały gamma (analogiczne do nadmiernie rozproszonych dyskretnych modeli dwumianowych dyskretnych), ale po prostu chciałbym, aby „strzelający pistolet” powiedział TAK, MASZ PRAWO RODZINA. Czy spojrzenie na znormalizowane wartości resztowe w stosunku do dopasowanych wartości jest jedynym i najlepszym sposobem na to? Chciałbym użyć modelu mieszanego do uwzględnienia pewnej hierarchii danych, ale najpierw muszę ustalić, która rodzina najlepiej opisuje moją zmienną odpowiedzi.
Każda pomoc doceniona. Szczególnie ceniony jest język Stata!
Odpowiedzi:
Mam kilka wskazówek:
(1) To, jak reszty powinny się porównywać z dopasowaniami, nie zawsze jest takie oczywiste, dlatego dobrze jest zapoznać się z diagnostyką poszczególnych modeli. Na przykład w modelach regresji logistycznej do oceny dobroci dopasowania używana jest statystyka Hosmera-Lemeshowa; wartości dźwigni wydają się być małe, gdy szacowane szanse są bardzo duże, bardzo małe lub zbliżone; & wkrótce.
(2) Czasami jedną rodzinę modeli można traktować jako szczególny przypadek innej, więc możesz użyć testu hipotezy dla parametru, który pomoże ci wybrać. Na przykład wykładniczy vs Weibull.
(3) Kryterium informacyjne Akaike przydaje się do wyboru między różnymi modelami, w tym do wyboru między różnymi rodzinami.
(4) Wiedza teoretyczna / empiryczna na temat tego, co modelujesz, zawęża pole możliwych modeli.
Ale nie ma automatycznego sposobu na znalezienie „właściwej” rodziny; rzeczywiste dane mogą pochodzić z dystrybucji tak skomplikowanych, jak chcesz, a złożoność modeli, które warto próbować dopasować, wzrasta wraz z ilością posiadanych danych. Jest to nieodłączna część powiedzenia Boxa, że żadne modele nie są prawdziwe, ale niektóre są przydatne.
Komentarz Re @ gunga: wydaje się, że powszechnie stosowany test Hosmera-Lemeshowa jest (a) zaskakująco wrażliwy na wybór pojemników i (b) ogólnie słabszy niż niektóre inne testy przeciwko niektórym istotnym klasom alternatywnych hipotez. Nie ma to wpływu na punkt (1): dobrze jest też być na bieżąco.
źródło
Może się okazać, że to interesujące przeczytać winiety (ręczne wprowadzenie) dla pakietu R
fitdistrplus
. Rozumiem, że wolisz pracować w Stacie, ale myślę, że winieta będzie wystarczająco zrozumiała, aby uzyskać wgląd w proces wnioskowania rodzin dystrybucyjnych na podstawie danych. Prawdopodobnie będziesz w stanie wdrożyć niektóre pomysły w Stata za pomocą własnego kodu. W szczególności myślę, że wykres Cullen i Frey, jeśli jest / mógłby zostać zaimplementowany w Stacie, może być dla ciebie pomocny.źródło