Wielokrotna imputacja i wybór modelu

21

Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na myśli szczególnie LASSO i wielomiany ułamkowe za pomocą R).

Jednym z pomysłów byłoby dopasowanie modelu do oryginalnych danych z brakującymi wartościami, a następnie ponowne oszacowanie tego modelu w zestawach danych MI i połączenie szacunków w normalny sposób. Wydaje się to jednak problematyczne, ponieważ oczekujesz uprzedzeń (a właściwie dlaczego MI?), Co może doprowadzić do wybrania „niewłaściwego” modelu od samego początku.

Innym pomysłem byłoby przejście przez proces wyboru modelu, którego używasz w każdym zestawie danych MI - ale jak byś następnie połączyć wyniki, gdyby zawierały różne zestawy zmiennych?

Jedną z moich myśli było ułożenie zestawu zestawów danych MI i przeanalizowanie ich jako jednego dużego zestawu danych, którego następnie użyłbyś, aby dopasować jeden, „najlepszy” model, i uwzględnić efekt losowy, aby uwzględnić fakt, że używasz powtarzanych miar dla każda obserwacja.

Czy to brzmi rozsądnie? A może niezwykle naiwny? Wszelkie wskazówki dotyczące tego zagadnienia (wybór modelu z wielokrotnym przypisaniem) byłyby bardzo mile widziane.

DL Dahly
źródło
2
Edytuj ten post, aby zmienić „dopasowanie modelu” na „wybór modelu”. Pomocne byłoby również omówienie używanej metody. Na przykład, jeśli stosowany jest stopniowy wybór modelu na podstawie wartości p, wówczas układanie przypisanych danych absolutnie NIE jest dozwolone. Możesz narysować próbki danych początkowych, w tym brakujące dane, zastosować MI i późniejszy proces wyboru modelu i obliczyć dokładną „wartość p” dla wybranego modelu.
AdamO,
Jak myślisz, dlaczego w drugim akapicie ta metoda nie ma sensu wielokrotnego przypisywania? Z jakiego oprogramowania korzystasz?
Peter Flom - Przywróć Monikę

Odpowiedzi:

10

Jest wiele rzeczy, które możesz zrobić, aby wybrać zmienne z mnożonych danych, ale nie wszystkie dają odpowiednie szacunki. Zobacz Wood i wsp. (2008) Stat Med, aby porównać różne możliwości.

W praktyce uważam następującą dwuetapową procedurę.

  1. Zastosuj preferowaną metodę selekcji zmienna niezależnie dla każdego z zbiorów danych kalkulacyjnych. Otrzymasz różnych modeli. Dla każdej zmiennej policz, ile razy pojawia się w modelu. Wybierz zmienne, które pojawiają się w co najmniej połowie modeli .mmm
  2. Jako kryterium dalszego stopniowego wyboru modelu należy zastosować wartość p statystyki Wald lub testu ilorazu wiarygodności obliczoną na podstawie wielokrotnie przypisanych zbiorów danych.m

Uwzględniono krok 1 wstępnej selekcji, aby zmniejszyć ilość obliczeń. Patrz http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (6.4.2) na przykład kodu sposobem dwuetapowym, w R z zastosowaniem mice(). W Stata możesz wykonać Krok 2 (na wszystkich zmiennych) za pomocą mim:stepwise.

Stef van Buuren
źródło
Stef, proszę dołączyć link do publikacji Stat Med. Próbowałem też trochę upiększyć twoją odpowiedź.
StasK
1
Proponowana procedura może mieć sens tylko wtedy, gdy wybierzesz z wcześniej określonego zestawu regresorów. Ale jeśli wybiorę powiedzmy trend kwadratowy, splajny B 5- i 9-węzłowe i może to być KOSZYK, nie jestem pewien, jak zastosować tę propozycję.
StasK
Co więcej, procedura zakłada, że ​​model imputacji jest prawidłowy. W szczególności metoda imputacji musi odpowiednio uchwycić wszystkie cechy danych, które mogą Cię zainteresować w przyszłości. Jeśli więc chcesz uwzględnić wyrażenia kwadratowe lub splajny B w swojej analizie kompletnych danych, model imputacji należy skonfigurować w taki sposób, aby cechy te zostały zachowane w danych przypisanych (uwaga: może to być trudne do osiągnięcia , ale to temat sam w sobie). Biorąc pod uwagę, że model imputacji jest poprawnie określony, powiedziałbym, że zastosowanie ma dwuetapowa procedura selekcji.
Stef van Buuren
No cóż, w zasadzie model imputacji musi być najbogatszym możliwym modelem. Natknąłem się na sytuacje, w których to nie do końca się udaje, jak na przykład idealne przewidywania w sparametryzowanych modelach logistycznych.
StasK
Zgoda. Będziesz musiał przypisać najbogatszy możliwy model. Najpierw zdefiniuj najbardziej złożone analizy, które chcesz wykonać, i dostosuj do tego model imputacji. Może to być trudne do osiągnięcia w praktyce, a staje się trudniejsze w miarę wzrostu złożoności modelu kompletnych danych. Nie ma darmowego lunchu. Idealne przewidywanie regresji logistycznej zostało rozwiązane na wiele sposobów i nie musi stanowić poważnej przeszkody.
Stef van Buuren
4

Jest to proste: możesz zastosować standardowe reguły łączenia MI - ale efekty zmiennych, które nie są obsługiwane w przypisanych zestawach danych, będą mniej wyraźne. Na przykład, jeśli zmienna nie jest wybrana w konkretnym kalkulowanym zbiorze danych, jej oszacowanie (w tym wariancja) wynosi zero i musi to zostać odzwierciedlone w szacunkach zastosowanych przy zastosowaniu wielokrotnej imputacji. Możesz rozważyć rozpoczęcie ładowania w celu skonstruowania przedziałów ufności w celu uwzględnienia niepewności wyboru modelu, zapoznaj się z najnowszą publikacją, która dotyczy wszystkich pytań: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Unikałbym pragmatycznych podejść, takich jak wybór zmiennej, jeśli jest ona wybrana w zestawach danych m / 2 lub coś podobnego, ponieważ wnioskowanie nie jest jasne i bardziej skomplikowane niż na pierwszy rzut oka.

Michał
źródło
3

Miałem ten sam problem.

Moim wyborem było tak zwane „Lasso wielokrotnej imputacji”. Zasadniczo łączy wszystkie przypisane zestawy danych razem i przyjmuje koncepcję grupowego lasso: każda zmienna kandydująca wygenerowałaby m zmiennych zastępczych. Każda zmienna fikcyjna odpowiada przypisanemu zestawowi danych.

Następnie wszystkie zmienne fikcyjne m są grupowane. albo odrzucisz zmienne fikcyjne m zmiennej kandydata we wszystkich przypisanych zestawach danych, albo zatrzymasz je we wszystkich przypisanych zestawach danych.

Zatem regresja lasso jest rzeczywiście dopasowana do wszystkich przypisanych zestawów danych łącznie.

Sprawdź papier :

Chen, Q. i Wang, S. (2013). „Zmienna selekcja dla danych wielokrotnie przypisywanych z zastosowaniem do badania narażenia na dioksyny”, Statistics in Medicine, 32: 3646-59.

I odpowiedni program R.

Fan Wang
źródło
Myślę, że
wysłałem
1

Mam do czynienia z podobnym problemem - mam zestaw danych, w którym od początku wiedziałem, że chcę uwzględnić wszystkie zmienne (interesowały mnie współczynniki bardziej niż przewidywanie), ale nie znałem a priori jakie interakcje należy określić.

Moje podejście polegało na napisaniu zestawu modeli kandydujących, wykonaniu wielu imputacji, oszacowaniu wielu modeli oraz po prostu zapisaniu i uśrednieniu wartości AIC dla każdego modelu. Wybrano specyfikację modelu o najniższej średniej AIC.

Myślałem o dodaniu poprawki, w której karę za wariancję między imputacją w AIC. Po zastanowieniu wydawało się to bezcelowe.

Podejście to wydawało mi się dość proste, ale sam to wymyśliłem i nie jestem sławnym statystą. Przed użyciem możesz poczekać, aż ludzie albo mnie poprawią (co byłoby mile widziane!), Albo głosują za odpowiedzią.

użytkownik_ogólny
źródło
Dziękuję za odpowiedź. Niestety najbardziej interesuje mnie stosowanie bardziej zautomatyzowanych / eksploracyjnych metod wyboru modeli, które nie nadają się do wyboru rozsądnego zestawu modeli kandydujących.
DL Dahly