Jak mogę połączyć p-bootstrapowane wartości p w wielokrotnie przypisywanych zestawach danych?

12

Niepokoi mnie problem, że chciałbym uruchomić wartość p dla oszacowania podstawie danych wielokrotnego przypisania (MI), ale nie jest dla mnie jasne, jak połączyć wartości p w zestawach MI.θ

W przypadku zestawów danych MI standardowe podejście do uzyskania całkowitej wariancji oszacowań wykorzystuje reguły Rubina. Zobacz tutaj, aby zapoznać się z zestawieniem zestawów danych MI. Pierwiastek kwadratowy całkowitej wariancji służy jako standardowe oszacowanie błędu . Jednak w przypadku niektórych estymatorów całkowita wariancja nie ma znanej postaci zamkniętej lub rozkład próbkowania nie jest normalny. Statystyka może wówczas nie być rozkładem t, nawet asymptotycznie.θ / s e ( θ )θθ/se(θ)

Dlatego w kompletnym przypadku danych jedną alternatywną opcją jest przeładowanie statystyki w celu znalezienia wariancji, wartości p i przedziału ufności, nawet jeśli rozkład próbkowania nie jest normalny, a jego zamknięta postać nieznana. W przypadku MI istnieją dwie opcje:

  • Połącz wariancję ładowania początkowego w zestawach danych MI
  • Połącz wartości p lub granice ufności w zestawach danych MI

Pierwsza opcja ponownie używałaby reguł Rubina. Uważam jednak, że jest to problematyczne, jeśli ma nietypowy rozkład próbkowania. W tej sytuacji (lub bardziej ogólnie, we wszystkich sytuacjach) można zastosować wartość p ładowania początkowego. Jednak w przypadku MI doprowadziłoby to do wielu wartości p lub przedziałów ufności, które należy połączyć w zestawy danych MI.θ

Więc moje pytanie brzmi: w jaki sposób powinienem połączyć wiele wartości p (lub przedziałów ufności) z bootstrapu w wielokrotnie przypisywanych zestawach danych?

Z zadowoleniem przyjmuję wszelkie sugestie dotyczące dalszego postępowania, dziękuję.

tomka
źródło
Być może pomocny: brakujące dane, imputacja i bootstrap (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly 18.12.2013
@DLDahly Hmm, nie znam tego papieru, ale wydaje się, że chodzi o to, aby najpierw uruchomić , a następnie wykonać wielokrotne imputacje. Wygląda na to, że OP jest oszacowaniami początkowymi ze zbiorów danych MI.
tchakravarty,
@fgnu Rzeczywiście, standardową procedurą, aby uzyskać całkowitą wariancję oszacowania przez bootstrap, byłoby załadowanie wariancji w każdym zestawie danych MI, a następnie zastosowanie reguł Rubina, aby połączyć wariancję bootstrapped w zestawach danych MI.
tomka

Odpowiedzi:

6

Myślę, że obie opcje dają poprawną odpowiedź. Ogólnie wolałbym metodę 1, ponieważ zachowuje ona całą dystrybucję.

W przypadku metody 1 należy uruchomić parametr razy w każdym z rozwiązań MI. Następnie po prostu wymieszaj dystrybucje ładowane początkowo, aby uzyskać ostateczną gęstość, teraz składającą się z próbek, które zawierają odmianę między imputacją. Następnie traktuj to jako konwencjonalną próbkę bootstrap, aby uzyskać przedziały ufności. W przypadku małych próbek użyj bayesowskiego paska startowego. Nie znam żadnych prac symulacyjnych, które badałyby tę procedurę i jest to w rzeczywistości otwarty problem do zbadania.m m k × mkmmk×m

Dla metody 2 zastosuj procedurę Licht-Rubin. Zobacz Jak uzyskać zbiorcze wartości p na testach przeprowadzonych w wielu przypisanych zestawach danych?

Stef van Buuren
źródło
+1 - JEŻELI celem jest zrozumienie zmienności oszacowań w zestawach danych MI, przeładowałbym każdy zestaw danych MI i sprawdziłbym całkowite i specyficzne dla MI rozkłady tego parametru.
DL Dahly,
@ Stef-van-Buuren Wydaje się, że to, co sugeruje DL Dahly, jest równoważne z łączeniem wariancji boostrapped w zestawach MI. Czy nadal wolałbyś swoją metodę pierwszą (dołączyć wszystkie zestawy danych do ładowania początkowego) nad tym „pośrednim” podejściem?
tomka
@tomka. Z pewnością zrobiłbym to samo, co DL Dahly, i studiowałbym wewnątrz i pomiędzy rozkładami imputacji. Aby zintegrować oba typy dystrybucji, musimy je w jakiś sposób połączyć. Sugeruję, aby po prostu je wymieszać.
Stef van Buuren,
6

Nie jest to literatura, którą znam, ale jednym ze sposobów podejścia do tego może być zignorowanie faktu, że są to wartości p ładowania początkowego i spojrzenie na literaturę na temat łączenia wartości p w wielokrotnie przypisywanych zestawach danych.

W takim przypadku obowiązują Li, Meng, Raghunathan i Rubin (1991) . Procedura oparta jest na statystykach z każdego z przypisanych zestawów danych, ważonych przy użyciu miary utraty informacji z powodu imputacji. Wpadają na problemy związane ze wspólnym rozkładem statystyk między imputacjami i przyjmują pewne uproszczenia.

Podobnym zainteresowaniem jest Meng (1994) .

Aktualizacja

Procedurę łączenia wartości p w wielokrotnie przypisywanych zestawach danych opisano w rozprawie Christine Licht, Ch. 4 . Pomysł, który przypisuje Donowi Rubinowi, polega zasadniczo na przekształceniu wartości p, które mają być normalnie rozłożone, które następnie można połączyć w zestawy danych MI, stosując standardowe reguły łączenia statystyk z.

tchakravarty
źródło
Jeśli rozumiem Li i in. działa poprawnie, dotyczy statystyk uzyskanych z każdego zestawu MI. Na przykład, jeśli dostajesz Pearson Chi² na każdym zestawie, wówczas można zastosować ich reguły, aby połączyć je w celu wnioskowania między zestawami. Na przykład można również przeprowadzić test Walda. Ale w przypadku bootstrapu nie dostajesz statystyk, które byś zebrał (ale tylko wartość p). Nie jestem więc pewien, czy jest coś w Li i in. które można zastosować do p bootstrapped.
tomka
1
@tomka Zaktualizowałem swoją odpowiedź.
tchakravarty,