Uogólnione liniowe modele mieszane: wybór modelu

10

To pytanie / temat pojawiło się w dyskusji z kolegą i szukałem opinii na ten temat:

Modeluję niektóre dane przy użyciu regresji logistycznej efektów losowych, a dokładniej regresji logistycznej przechwytywania losowego. Dla stałych efektów mam 9 zmiennych, które są interesujące i biorą pod uwagę. Chciałbym dokonać pewnego wyboru modelu, aby znaleźć znaczące zmienne i dać model „najlepszy” (tylko główne efekty).

Moim pierwszym pomysłem było użycie AIC do porównania różnych modeli, ale przy 9 zmiennych nie byłem zbyt ekscytujący, aby porównać 2 ^ 9 = 512 różnych modeli (słowo kluczowe: pogłębianie danych).

Rozmawiałem o tym z kolegą i powiedział mi, że pamięta, jak czytać o stopniowym (lub do przodu) wyborze modelu w GLMM. Ale zamiast używać wartości p (np. Opartej na teście stosunku prawdopodobieństwa dla GLMM), należy użyć AIC jako kryterium wejścia / wyjścia.

Uważam ten pomysł za bardzo interesujący, ale nie znalazłem żadnych odniesień, które dalej go omawiają, a mój kolega nie pamiętał, gdzie go przeczytał. Wiele książek sugeruje użycie AIC do porównywania modeli, ale nie znalazłem żadnej dyskusji na temat korzystania z tego razem z procedurą wyboru modelu krokowego lub do przodu.

Mam więc zasadniczo dwa pytania:

  1. Czy jest coś złego w stosowaniu AIC w procedurze wyboru modelu krokowego jako kryterium wejścia / wyjścia? Jeśli tak, jaka byłaby alternatywa?

  2. Czy masz jakieś referencje omawiające powyższą procedurę, które (również jako odniesienie do raportu końcowego?

Najlepsza,

Emilia

Emilia
źródło
3
Krokowy wybór modelu to tyle samo pogłębiania danych, co pełny wybór podzbiorów (w rzeczywistości próbuje znaleźć w przybliżeniu to samo rozwiązanie w znacznie krótszym czasie). Wybór oparty na AIC również pogłębia dane.
Michael M

Odpowiedzi:

8

Selekcja krokowa jest błędna w modelach wielopoziomowych z tych samych powodów, dla których jest błędna w regresji „zwykłej”: wartości p będą zbyt niskie, błędy standardowe będą zbyt małe, parametr szacuje się na 0 itd. Co najważniejsze, zaprzecza ci możliwość myślenia.

9 IV to niewiele. Dlaczego wybrałeś te 9? Na pewno miałeś powód.

Pierwszą rzeczą do zrobienia jest przyjrzenie się wielu działkom; które precyzyjne zależą trochę od tego, czy dane są podłużne (w takim przypadku wykresy z czasem na osi X są często przydatne), czy skupione. Ale z pewnością spójrz na relacje między 9 IV i twoim DV (równoległe wykresy pudełkowe to jedna prosta możliwość).

Ideałem byłoby zbudowanie kilku modeli opartych na sensie merytorycznym i porównanie ich za pomocą AIC, BIC lub innej miary. Ale nie zdziw się, jeśli żaden konkretny model nie wyjdzie najlepiej. Nie mówisz na jakim polu pracujesz, ale w wielu (większości?) Dziedzinach natura jest skomplikowana. Kilka modeli może pasować mniej więcej tak samo, a inny model może lepiej pasować do innego zestawu danych (nawet jeśli oba są losowymi próbkami z tej samej populacji).

Jeśli chodzi o referencje - istnieje wiele dobrych książek na temat nieliniowych modeli mieszanych. To, które z nich jest dla Ciebie najlepsze, zależy od: a) w jakim polu jesteś, b) jaki jest charakter danych, c) z jakiego oprogramowania korzystasz.

W odpowiedzi na Twój komentarz

  1. Jeśli wszystkie 9 zmiennych jest naukowo ważne, rozważyłbym przynajmniej włączenie ich wszystkich. Jeśli zmienna, którą wszyscy myślą, że jest ważna, ma mały efekt, to jest interesujące.

  2. Z pewnością wykreślić wszystkie zmienne w czasie i na różne sposoby.

  3. Do ogólnych problemów dotyczących podłużnych modeli wielopoziomowych lubię Hedeker i Gibbons ; dla nieliniowych modeli podłużnych w SAS lubię Molenberghs i Verbeke . Sama dokumentacja SAS PROC GLIMMIXzawiera również wytyczne.

Peter Flom
źródło
W tym badaniu pacjenci są narażeni na różne kombinacje leków i ćwiczeń w czasie, a wynikiem zainteresowania jest obecność pewnych warunków oddechowych (tak / nie). Pacjentów mierzy się wielokrotnie co 2 tygodnie przez 6 miesięcy. Jeśli chodzi o oprogramowanie, używam SAS i R. 9 IV zostało wybranych przez badacza ze względu na ich znaczenie naukowe.
Emilia
Kontrola danych jest równie zła, jeśli nie gorsza niż przy użyciu algorytmicznego wyboru modelu. Powodem jest to, że wybór modelu algorytmicznego jest dobrze zrozumiały i może być potencjalnie dostosowany; przeglądanie danych i stosowanie subiektywnej oceny jest procesem, którego nie można powielić ani dostosować. W każdym razie unikałbym wyboru modelu, ponieważ wybór modelu unieważnia wnioskowanie. Ponieważ jest tu tylko 9 zmiennych towarzyszących, uważam, że najlepszą radą jest praca z pełnym modelem lub z modelem wybranym na podstawie samej substancji.
user3903581,
3

Wyboru modelu można lepiej dokonać za pomocą metod skurczowych, takich jak LASSO. Metody krokowe są zbyt liberalne. Uzasadnienie znajduje się na stronie Tibshirani. Jeśli używasz R, istnieje pakiet o nazwie, glmmLassoktóry umożliwia wybór modelu w uogólnionych liniowych modelach efektów mieszanych przy użyciu metody skurczu LASSO.

Abderrahim Oulhaj
źródło
1

Dobrym odniesieniem dla wyboru mieszanego modelu opartego na AIC w R (również dobrego dla manekinów) byłby Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Jan Philipp S.
źródło