Jak mogę połączyć średnie tylne i wiarygodne przedziały po wielokrotnym przypisaniu?

20

Użyłem wielokrotnej imputacji, aby uzyskać liczbę kompletnych zestawów danych.

Użyłem metod bayesowskich na każdym z kompletnych zestawów danych, aby uzyskać rozkłady tylne dla parametru (efekt losowy).

Jak mogę połączyć / połączyć wyniki dla tego parametru?


Więcej kontekstu:

Mój model jest hierarchiczny w sensie pojedynczych uczniów (jedna obserwacja na jednego ucznia) skupionych w szkołach. Zrobiłem wiele imputacji (używając MICEw R) na moich danych, gdzie zawarłem schooljako jeden z predyktorów brakujących danych - aby spróbować włączyć hierarchię danych do imputacji.

Dopasowałem prosty model losowego nachylenia do każdego z kompletnych zestawów danych (używając MCMCglmmw R). Wynik jest binarny.

Odkryłem, że tylne gęstości losowej wariancji nachylenia są „dobrze zachowane” w tym sensie, że wyglądają mniej więcej tak: wprowadź opis zdjęcia tutaj

Jak mogę połączyć / połączyć tylne środki i wiarygodne odstępy czasu z każdego przypisanego zestawu danych, aby uzyskać ten losowy efekt?


Aktualizacja 1 :

Z tego, co rozumiem do tej pory, mógłbym zastosować reguły Rubina do tylnego środka, aby dać wielokrotnie przypisany środek tylny - czy są z tym jakieś problemy? Ale nie mam pojęcia, jak połączyć 95% wiarygodnych przedziałów. Ponadto, skoro mam rzeczywistą próbkę gęstości tylnej dla każdej imputacji - czy mogę jakoś to połączyć?


Aktualizacja 2 :

Zgodnie z sugestią @ cyan w komentarzach bardzo podoba mi się pomysł połączenia próbek z późniejszych rozkładów uzyskanych z każdego pełnego zestawu danych z wielu imputacji. Chciałbym jednak poznać teoretyczne uzasadnienie tego.

Joe King
źródło
Jeśli brak któregokolwiek z danych jest niezależny od powiązanej wartości wyniku, poprawne jest po prostu zrzucenie wszystkich próbek tylnych z różnych przypisanych zestawów danych i wzięcie średniej i 95% wiarygodnych przedziałów dla połączonych próbek tylnych.
Cyjan
@Cyan jest tym samym, co stwierdzenie, że mechanizm zaginięcia jest albo „zaginiony losowo”, albo „zaginął całkowicie losowo”, ale nie „zaginął nie losowo” (zwykłe założenia, o których dowiedziałem się przy wykonywaniu MI)? Czy znasz jakieś odniesienia, w których to „zjednoczenie” jest formalnie uzasadnione?
Joe King,
Wielokrotne przypisanie JEST w swoim sercu procedurą bayesowską. Jeśli używasz bayesowskich metod szacowania (MCMC i tym podobnych), powinieneś po prostu rzucić symulację brakujących danych jako dodatkowy krok próbkowania MCMC dla modelu w pełni bayesowskiego i nie będziesz się starał wymyślić interfejsu między tymi podejściami.
StasK,
@StasK dziękuję za komentarz. Spróbuję zastosować to podejście w moim następnym projekcie, ale niestety nie mam teraz czasu na zmianę modelu. Uruchomiłem już imputacje i model bayesowski dla każdego przypisanego zestawu danych - uruchomienie zajęło prawie 3 tygodnie. Czy uważasz, że łączenie tylnych próbek jest dla mnie nieważne?
Joe King,
Reguły Rubina dotyczą tylko chwil. Nie wiem, czy możesz zastosować je do dystrybucji w znaczący sposób. Może, może nie. Być może najlepszym, co możesz zrobić, to powiedzieć, że przebieg MCMC wygenerował oszacowania punktowe (średnie tylne) i standardowe błędy (wariancje tylne), a następnie użyj reguł Rubina, aby uzyskać ogólne oszacowania punktowe i wariancyjne. Wiesz, jak tragiczne mogą być straty dfs w modelu hierarchicznym i jak niebezpieczne jest gromadzenie danych: jeśli masz 5 przypisanych kompletnych zestawów danych i 1M próbek MCMC na każdym, oznacza to, że masz 5 klastrów, a nie 5M iid MCMC zwrotnica.
StasK,

Odpowiedzi:

4

W przypadku szczególnie dobrze wychowanych tylnych, które można odpowiednio opisać parametrycznym opisem rozkładu, możesz po prostu wziąć średnią i wariancję, która najlepiej opisuje twój tylny odcinek i odejść. Podejrzewam, że może to być odpowiednie w wielu okolicznościach, w których nie dostajesz naprawdę dziwnych dystrybucji bocznych.

Fomite
źródło
0

Jeśli korzystasz ze staty, istnieje procedura o nazwie „mim”, która łączy dane po imputacji dla modeli z efektami mieszanymi. Nie wiem czy jest dostępny w R.

Omar
źródło
Dziękuję Ci. Być może nie wyjaśniłem dobrze - mam już próbki pobrane z kilku przypisanych zbiorów danych i chcę wiedzieć, czy mogę je po prostu połączyć, a następnie utworzyć wielokrotnie przypisany wiarygodny przedział czasu?
Joe King,