Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na myśli szczególnie LASSO i wielomiany ułamkowe za pomocą R).
Jednym z pomysłów byłoby dopasowanie modelu do oryginalnych danych z brakującymi wartościami, a następnie ponowne oszacowanie tego modelu w zestawach danych MI i połączenie szacunków w normalny sposób. Wydaje się to jednak problematyczne, ponieważ oczekujesz uprzedzeń (a właściwie dlaczego MI?), Co może doprowadzić do wybrania „niewłaściwego” modelu od samego początku.
Innym pomysłem byłoby przejście przez proces wyboru modelu, którego używasz w każdym zestawie danych MI - ale jak byś następnie połączyć wyniki, gdyby zawierały różne zestawy zmiennych?
Jedną z moich myśli było ułożenie zestawu zestawów danych MI i przeanalizowanie ich jako jednego dużego zestawu danych, którego następnie użyłbyś, aby dopasować jeden, „najlepszy” model, i uwzględnić efekt losowy, aby uwzględnić fakt, że używasz powtarzanych miar dla każda obserwacja.
Czy to brzmi rozsądnie? A może niezwykle naiwny? Wszelkie wskazówki dotyczące tego zagadnienia (wybór modelu z wielokrotnym przypisaniem) byłyby bardzo mile widziane.
źródło
Odpowiedzi:
Jest wiele rzeczy, które możesz zrobić, aby wybrać zmienne z mnożonych danych, ale nie wszystkie dają odpowiednie szacunki. Zobacz Wood i wsp. (2008) Stat Med, aby porównać różne możliwości.
W praktyce uważam następującą dwuetapową procedurę.
Uwzględniono krok 1 wstępnej selekcji, aby zmniejszyć ilość obliczeń. Patrz http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (6.4.2) na przykład kodu sposobem dwuetapowym, w R z zastosowaniem
mice()
. W Stata możesz wykonać Krok 2 (na wszystkich zmiennych) za pomocąmim:stepwise
.źródło
Jest to proste: możesz zastosować standardowe reguły łączenia MI - ale efekty zmiennych, które nie są obsługiwane w przypisanych zestawach danych, będą mniej wyraźne. Na przykład, jeśli zmienna nie jest wybrana w konkretnym kalkulowanym zbiorze danych, jej oszacowanie (w tym wariancja) wynosi zero i musi to zostać odzwierciedlone w szacunkach zastosowanych przy zastosowaniu wielokrotnej imputacji. Możesz rozważyć rozpoczęcie ładowania w celu skonstruowania przedziałów ufności w celu uwzględnienia niepewności wyboru modelu, zapoznaj się z najnowszą publikacją, która dotyczy wszystkich pytań: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Unikałbym pragmatycznych podejść, takich jak wybór zmiennej, jeśli jest ona wybrana w zestawach danych m / 2 lub coś podobnego, ponieważ wnioskowanie nie jest jasne i bardziej skomplikowane niż na pierwszy rzut oka.
źródło
Miałem ten sam problem.
Moim wyborem było tak zwane „Lasso wielokrotnej imputacji”. Zasadniczo łączy wszystkie przypisane zestawy danych razem i przyjmuje koncepcję grupowego lasso: każda zmienna kandydująca wygenerowałaby m zmiennych zastępczych. Każda zmienna fikcyjna odpowiada przypisanemu zestawowi danych.
Następnie wszystkie zmienne fikcyjne m są grupowane. albo odrzucisz zmienne fikcyjne m zmiennej kandydata we wszystkich przypisanych zestawach danych, albo zatrzymasz je we wszystkich przypisanych zestawach danych.
Zatem regresja lasso jest rzeczywiście dopasowana do wszystkich przypisanych zestawów danych łącznie.
Sprawdź papier :
Chen, Q. i Wang, S. (2013). „Zmienna selekcja dla danych wielokrotnie przypisywanych z zastosowaniem do badania narażenia na dioksyny”, Statistics in Medicine, 32: 3646-59.
I odpowiedni program R.
źródło
Mam do czynienia z podobnym problemem - mam zestaw danych, w którym od początku wiedziałem, że chcę uwzględnić wszystkie zmienne (interesowały mnie współczynniki bardziej niż przewidywanie), ale nie znałem a priori jakie interakcje należy określić.
Moje podejście polegało na napisaniu zestawu modeli kandydujących, wykonaniu wielu imputacji, oszacowaniu wielu modeli oraz po prostu zapisaniu i uśrednieniu wartości AIC dla każdego modelu. Wybrano specyfikację modelu o najniższej średniej AIC.
Myślałem o dodaniu poprawki, w której karę za wariancję między imputacją w AIC. Po zastanowieniu wydawało się to bezcelowe.
Podejście to wydawało mi się dość proste, ale sam to wymyśliłem i nie jestem sławnym statystą. Przed użyciem możesz poczekać, aż ludzie albo mnie poprawią (co byłoby mile widziane!), Albo głosują za odpowiedzią.
źródło