Niepokoi mnie problem, że chciałbym uruchomić wartość p dla oszacowania podstawie danych wielokrotnego przypisania (MI), ale nie jest dla mnie jasne, jak połączyć wartości p w zestawach MI.
W przypadku zestawów danych MI standardowe podejście do uzyskania całkowitej wariancji oszacowań wykorzystuje reguły Rubina. Zobacz tutaj, aby zapoznać się z zestawieniem zestawów danych MI. Pierwiastek kwadratowy całkowitej wariancji służy jako standardowe oszacowanie błędu . Jednak w przypadku niektórych estymatorów całkowita wariancja nie ma znanej postaci zamkniętej lub rozkład próbkowania nie jest normalny. Statystyka może wówczas nie być rozkładem t, nawet asymptotycznie.θ / s e ( θ )
Dlatego w kompletnym przypadku danych jedną alternatywną opcją jest przeładowanie statystyki w celu znalezienia wariancji, wartości p i przedziału ufności, nawet jeśli rozkład próbkowania nie jest normalny, a jego zamknięta postać nieznana. W przypadku MI istnieją dwie opcje:
- Połącz wariancję ładowania początkowego w zestawach danych MI
- Połącz wartości p lub granice ufności w zestawach danych MI
Pierwsza opcja ponownie używałaby reguł Rubina. Uważam jednak, że jest to problematyczne, jeśli ma nietypowy rozkład próbkowania. W tej sytuacji (lub bardziej ogólnie, we wszystkich sytuacjach) można zastosować wartość p ładowania początkowego. Jednak w przypadku MI doprowadziłoby to do wielu wartości p lub przedziałów ufności, które należy połączyć w zestawy danych MI.
Więc moje pytanie brzmi: w jaki sposób powinienem połączyć wiele wartości p (lub przedziałów ufności) z bootstrapu w wielokrotnie przypisywanych zestawach danych?
Z zadowoleniem przyjmuję wszelkie sugestie dotyczące dalszego postępowania, dziękuję.
Odpowiedzi:
Myślę, że obie opcje dają poprawną odpowiedź. Ogólnie wolałbym metodę 1, ponieważ zachowuje ona całą dystrybucję.
W przypadku metody 1 należy uruchomić parametr razy w każdym z rozwiązań MI. Następnie po prostu wymieszaj dystrybucje ładowane początkowo, aby uzyskać ostateczną gęstość, teraz składającą się z próbek, które zawierają odmianę między imputacją. Następnie traktuj to jako konwencjonalną próbkę bootstrap, aby uzyskać przedziały ufności. W przypadku małych próbek użyj bayesowskiego paska startowego. Nie znam żadnych prac symulacyjnych, które badałyby tę procedurę i jest to w rzeczywistości otwarty problem do zbadania.m m k × mk m m k×m
Dla metody 2 zastosuj procedurę Licht-Rubin. Zobacz Jak uzyskać zbiorcze wartości p na testach przeprowadzonych w wielu przypisanych zestawach danych?
źródło
Nie jest to literatura, którą znam, ale jednym ze sposobów podejścia do tego może być zignorowanie faktu, że są to wartości p ładowania początkowego i spojrzenie na literaturę na temat łączenia wartości p w wielokrotnie przypisywanych zestawach danych.
W takim przypadku obowiązują Li, Meng, Raghunathan i Rubin (1991) . Procedura oparta jest na statystykach z każdego z przypisanych zestawów danych, ważonych przy użyciu miary utraty informacji z powodu imputacji. Wpadają na problemy związane ze wspólnym rozkładem statystyk między imputacjami i przyjmują pewne uproszczenia.
Podobnym zainteresowaniem jest Meng (1994) .
Aktualizacja
Procedurę łączenia wartości p w wielokrotnie przypisywanych zestawach danych opisano w rozprawie Christine Licht, Ch. 4 . Pomysł, który przypisuje Donowi Rubinowi, polega zasadniczo na przekształceniu wartości p, które mają być normalnie rozłożone, które następnie można połączyć w zestawy danych MI, stosując standardowe reguły łączenia statystyk z.
źródło