To pytanie / temat pojawiło się w dyskusji z kolegą i szukałem opinii na ten temat:
Modeluję niektóre dane przy użyciu regresji logistycznej efektów losowych, a dokładniej regresji logistycznej przechwytywania losowego. Dla stałych efektów mam 9 zmiennych, które są interesujące i biorą pod uwagę. Chciałbym dokonać pewnego wyboru modelu, aby znaleźć znaczące zmienne i dać model „najlepszy” (tylko główne efekty).
Moim pierwszym pomysłem było użycie AIC do porównania różnych modeli, ale przy 9 zmiennych nie byłem zbyt ekscytujący, aby porównać 2 ^ 9 = 512 różnych modeli (słowo kluczowe: pogłębianie danych).
Rozmawiałem o tym z kolegą i powiedział mi, że pamięta, jak czytać o stopniowym (lub do przodu) wyborze modelu w GLMM. Ale zamiast używać wartości p (np. Opartej na teście stosunku prawdopodobieństwa dla GLMM), należy użyć AIC jako kryterium wejścia / wyjścia.
Uważam ten pomysł za bardzo interesujący, ale nie znalazłem żadnych odniesień, które dalej go omawiają, a mój kolega nie pamiętał, gdzie go przeczytał. Wiele książek sugeruje użycie AIC do porównywania modeli, ale nie znalazłem żadnej dyskusji na temat korzystania z tego razem z procedurą wyboru modelu krokowego lub do przodu.
Mam więc zasadniczo dwa pytania:
Czy jest coś złego w stosowaniu AIC w procedurze wyboru modelu krokowego jako kryterium wejścia / wyjścia? Jeśli tak, jaka byłaby alternatywa?
Czy masz jakieś referencje omawiające powyższą procedurę, które (również jako odniesienie do raportu końcowego?
Najlepsza,
Emilia
Odpowiedzi:
Selekcja krokowa jest błędna w modelach wielopoziomowych z tych samych powodów, dla których jest błędna w regresji „zwykłej”: wartości p będą zbyt niskie, błędy standardowe będą zbyt małe, parametr szacuje się na 0 itd. Co najważniejsze, zaprzecza ci możliwość myślenia.
9 IV to niewiele. Dlaczego wybrałeś te 9? Na pewno miałeś powód.
Pierwszą rzeczą do zrobienia jest przyjrzenie się wielu działkom; które precyzyjne zależą trochę od tego, czy dane są podłużne (w takim przypadku wykresy z czasem na osi X są często przydatne), czy skupione. Ale z pewnością spójrz na relacje między 9 IV i twoim DV (równoległe wykresy pudełkowe to jedna prosta możliwość).
Ideałem byłoby zbudowanie kilku modeli opartych na sensie merytorycznym i porównanie ich za pomocą AIC, BIC lub innej miary. Ale nie zdziw się, jeśli żaden konkretny model nie wyjdzie najlepiej. Nie mówisz na jakim polu pracujesz, ale w wielu (większości?) Dziedzinach natura jest skomplikowana. Kilka modeli może pasować mniej więcej tak samo, a inny model może lepiej pasować do innego zestawu danych (nawet jeśli oba są losowymi próbkami z tej samej populacji).
Jeśli chodzi o referencje - istnieje wiele dobrych książek na temat nieliniowych modeli mieszanych. To, które z nich jest dla Ciebie najlepsze, zależy od: a) w jakim polu jesteś, b) jaki jest charakter danych, c) z jakiego oprogramowania korzystasz.
W odpowiedzi na Twój komentarz
Jeśli wszystkie 9 zmiennych jest naukowo ważne, rozważyłbym przynajmniej włączenie ich wszystkich. Jeśli zmienna, którą wszyscy myślą, że jest ważna, ma mały efekt, to jest interesujące.
Z pewnością wykreślić wszystkie zmienne w czasie i na różne sposoby.
Do ogólnych problemów dotyczących podłużnych modeli wielopoziomowych lubię Hedeker i Gibbons ; dla nieliniowych modeli podłużnych w SAS lubię Molenberghs i Verbeke . Sama dokumentacja SAS
PROC GLIMMIX
zawiera również wytyczne.źródło
Wyboru modelu można lepiej dokonać za pomocą metod skurczowych, takich jak LASSO. Metody krokowe są zbyt liberalne. Uzasadnienie znajduje się na stronie Tibshirani. Jeśli używasz R, istnieje pakiet o nazwie,
glmmLasso
który umożliwia wybór modelu w uogólnionych liniowych modelach efektów mieszanych przy użyciu metody skurczu LASSO.źródło
Dobrym odniesieniem dla wyboru mieszanego modelu opartego na AIC w R (również dobrego dla manekinów) byłby Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
źródło