Odnoszę się do tego artykułu: Hayes JR, Groner JI. „Korzystanie z wielu ocen imputacji i skłonności do testowania wpływu używania fotelików samochodowych i pasów bezpieczeństwa na stopień obrażeń na podstawie danych rejestru urazów”. J Pediatr Surg. 2008 maja; 43 (5): 924–7.
W tym badaniu przeprowadzono wielokrotną imputację w celu uzyskania 15 kompletnych zestawów danych. Następnie obliczono wyniki skłonności dla każdego zestawu danych. Następnie dla każdej jednostki obserwacyjnej losowo wybrano rekord z jednego z ukończonych 15 zestawów danych (w tym powiązany wynik skłonności), tworząc w ten sposób jeden końcowy zestaw danych, dla którego następnie analizowano poprzez dopasowanie wyniku skłonności.
Moje pytania brzmią: czy jest to prawidłowy sposób na wykonanie dopasowania oceny skłonności po wielokrotnym przypisaniu? Czy istnieją alternatywne sposoby na zrobienie tego?
Dla kontekstu: W moim nowym projekcie staram się porównać efekty 2 metod leczenia przy użyciu dopasowania oceny skłonności. Brakuje danych i zamierzam użyć MICE
pakietu w R, aby przypisać brakujące wartości, a następnie twang
wykonać dopasowanie oceny skłonności, a następnielme4
przeanalizować dopasowane dane.
Aktualizacja 1:
Znalazłem ten artykuł, który przyjmuje inne podejście: Mitra, Robin and Reiter, Jerome P. (2011) Dopasowywanie wyników skłonności do brakujących zmiennych towarzyszących poprzez iterowane, sekwencyjne wielokrotne przypisywanie [Dokument roboczy]
W tym artykule autorzy obliczają oceny skłonności dla wszystkich przypisanych zbiorów danych, a następnie łączą je poprzez uśrednianie, co jest w duchu wielokrotnej imputacji przy użyciu reguł Rubina dla oszacowania punktowego - ale czy to naprawdę ma zastosowanie do wyniku skłonności?
Byłoby naprawdę miło, gdyby ktokolwiek w CV mógł udzielić odpowiedzi z komentarzem na temat tych 2 różnych podejść i / lub innych…
źródło
cobalt
pakietu zatytułowanego „Używanie kobaltu ze skomplikowanymi danymi”. Możesz uzyskać do niego dostęp tutaj: CRAN.R-project.org/package=cobaltMoże wystąpić zderzenie dwóch paradygmatów. Wielokrotna imputacja jest rozwiązaniem bayesowskim w dużej mierze opartym na modelu: koncepcja prawidłowej imputacji zasadniczo stwierdza, że musisz próbkować z dobrze zdefiniowanego tylnego rozkładu danych, w przeciwnym razie jesteś przykręcony. Z drugiej strony dopasowanie wyniku skłonności jest procedurą półparametryczną: po obliczeniu wyniku skłonności (bez względu na to, jak mogłeś użyć oszacowania gęstości jądra, niekoniecznie modelu logit), możesz zrobić resztę po prostu biorąc różnice między obserwowanymi i nietraktowanymi obserwacjami z tym samym wynikiem skłonności, co jest teraz trochę nieparametryczne, ponieważ nie ma już modelu, który kontrolowałby inne zmienne towarzyszące. Ja nieAbadie i Imbens (2008) omawiali, że uniemożliwia to prawidłowe wyregulowanie standardowych błędów w niektórych pasujących sytuacjach). Dałbym więcej zaufania płynniejszym podejściom, takim jak ważenie przez odwrotną skłonność. Moim ulubionym odniesieniem w tej sprawie jest „Głównie nieszkodliwa ekonometria” z podtytułem „Towarzysz empiryczny” i skierowana do ekonomistów, ale myślę, że ta książka powinna być lekturą obowiązkową dla innych naukowców społecznych, większości biostatystów i statystów niebiograficznych, więc że wiedzą, jak inne dyscypliny podchodzą do analizy danych.
W każdym razie użycie tylko jednej z 15 symulowanych pełnych linii danych na obserwację jest równoważne pojedynczej imputacji. W rezultacie tracisz wydajność w porównaniu do wszystkich 15 kompletnych zestawów danych i nie możesz poprawnie oszacować standardowych błędów. Z mojego punktu widzenia wygląda to na wadliwą procedurę.
Oczywiście z radością omiatamy założenie, że zarówno model wielokrotnej imputacji, jak i model skłonności są poprawne w sensie posiadania wszystkich właściwych zmiennych we wszystkich właściwych formach funkcjonalnych. Jest mały sposób, aby to sprawdzić (chociaż chętnie usłyszę inaczej o środkach diagnostycznych dla obu tych metod).
źródło
Naprawdę nie umiem mówić o teoretycznych aspektach pytania, ale dam swoje doświadczenie z wykorzystaniem modeli PS / IPTW i wielokrotnego przypisywania.
źródło