Jak połączyć przedziały ufności dla komponentu wariancji modelu z efektami mieszanymi, gdy używana jest wielokrotna imputacja

20

Logiką wielokrotnej imputacji (MI) jest przypisywanie brakujących wartości nie jeden raz, ale kilka razy (zwykle M = 5) razy, co skutkuje M zakończonymi zestawami danych. M zakończonych zestawów danych jest następnie analizowanych metodami kompletnych danych, na podstawie których szacunki M i ich błędy standardowe są łączone przy użyciu wzorów Rubina w celu uzyskania „ogólnego” oszacowania i jego błędu standardowego.

Jak dotąd świetnie, ale nie jestem pewien, jak zastosować ten przepis, jeśli chodzi o komponenty wariancji modelu z efektami mieszanymi. Rozkład próbkowania składnika wariancji jest asymetryczny - dlatego odpowiedniego przedziału ufności nie można podać w typowej postaci „szacunek ± 1,96 * se (szacunek)”. Z tego powodu pakiety R lme4 i nlme nawet nie dostarczają standardowych błędów składników wariancji, a jedynie przedziały ufności.

Możemy zatem wykonać MI dla zestawu danych, a następnie uzyskać M przedziałów ufności dla komponentu wariancji po dopasowaniu tego samego modelu efektu mieszanego w M ukończonych zestawach danych. Pytanie brzmi, jak połączyć te przedziały M w jeden „ogólny” przedział ufności.

Wydaje mi się, że powinno to być możliwe - wydaje się, że autorzy artykułu (Yucel i Demirtas (2010) Wpływ nietypowych losowych efektów na wnioskowanie przez MI), ale nie wyjaśniają dokładnie, jak to zrobić.

Wszelkie wskazówki byłyby bardzo zobowiązane!

Pozdrawiam, Rok

Rok
źródło
Bardzo interesujące pytanie. Czekam na informacje z twoich wyników, jeśli chcesz się nimi podzielić ...
chl
@chl: Mogę wysłać ci tabele z wynikami, kiedy skończę, ale tak naprawdę nie będę wymyślał niczego nowego. Do tej pory planuję po prostu porównać MI w dwupoziomowym modelu imputacji (szalka pakietu R) do MI w prostym normalnym modelu (ignorując dwupoziomową strukturę, normę pakietu R) i usunąć listowo. Przy różnych wielkościach próbek, wartościach wariancji itp. To powinno wystarczyć na seminarium (jestem doktorantem), ale nie do końca przełomowe. Jeśli masz jakieś pomysły na temat „ulepszenia” symulacji, chciałbym usłyszeć.
Rok
1
Jeszcze jedno: nie jestem pewien, czy istnieje nawet odpowiednie analityczne rozwiązanie tego problemu. Przejrzałem trochę dodatkowej literatury, ale problem ten elegancko przejrzał wszędzie. Zauważyłem również, że yucel i demirtas (w wspomnianym artykule, strona 798) piszą: „Te wielokrotnie przypisywane zestawy danych zostały użyte do oszacowania modelu […] przy użyciu pakietu R lme4, co prowadzi do 10 zestawów (beta, se (beta) ), (sigma_b, se (sigma_b)), które zostały następnie połączone przy użyciu reguł łączenia MI określonych przez Rubina. ”
Rok
Wygląda na to, że użyli jakiegoś skrótu do oszacowania SE składnika wariancji (co oczywiście jest nieodpowiednie, ponieważ CI jest asymetryczny), a następnie zastosowali klasyczną formułę.
Rok
Ok, dzięki za to. Czy potrafisz podać swoje komentarze w odpowiedzi, aby można było głosować?
chl

Odpowiedzi:

8

To świetne pytanie! Nie jestem pewien, czy jest to pełna odpowiedź, jednak zostawiam kilka wierszy na wypadek, gdyby to pomogło.

Wydaje się, że Yucel i Demirtas (2010) odnoszą się do starszej pracy opublikowanej w JCGS, Strategie obliczeniowe dla wielowymiarowych liniowych modeli efektów mieszanych z brakującymi wartościami , która wykorzystuje hybrydowe podejście punktacji EM / Fisher do sporządzania szacunków VC opartych na prawdopodobieństwie . Został zaimplementowany w pakiecie R mlmmm . Nie wiem jednak, czy produkuje elementy CI.

W przeciwnym razie zdecydowanie sprawdziłbym program WinBUGS , który jest w dużej mierze wykorzystywany w modelach wielopoziomowych, w tym tych z brakującymi danymi. Wydaje mi się, że pamiętam, że zadziała to tylko wtedy, gdy twój MV znajduje się w zmiennej odpowiedzi, a nie w zmiennych towarzyszących, ponieważ generalnie musimy określić pełne rozkłady warunkowe (jeśli MV są obecne w zmiennych niezależnych, oznacza to, że musimy podać brakujące X, i to będzie traktowane jako parametr do oszacowania przez WinBUGS ...). Wydaje się, że dotyczy to również R, jeśli odwołam się do następującego wątku na temat mieszania r-sig, brakujących danych w lme, lmer, PROC MIXED . Warto też przyjrzeć się oprogramowaniu MLwiN .

chl
źródło
Bardzo dziękuję za twoją odpowiedź! Zasadniczo jestem również zainteresowany sposobem rozwiązania konkretnego problemu, takiego jak ten, który opisałem (dziękuję za podpowiedź WinBUGS). Ale w tej chwili próbuję przeprowadzić badanie symulacyjne na potrzeby seminarium, w którym sprawdziłbym wydajność (wskaźniki pokrycia itp.) MI przy błędnej specyfikacji modelu. Przypuszczam, że po prostu zapomnę o komponentach wariancji, jeśli nie mogę znaleźć rozwiązania i skupić się na ustalonych efektach, ale poddanie się jest frustrujące.
Rok
@Rok Świetny pomysł na symulację! Czekam na ten konkretny problem. Podejrzewam, że już przeszukujesz mailing mieszany r-sig i książkę Gelmana na temat regresji wielopoziomowej ...
chl
Spojrzałem teraz, czołgi na referencje! Niestety w archiwach mieszanych r-sig nic nie ma na temat MI; a Gelman podaje podstawową formułę, w jaki sposób łączyć wnioski z MI, gdy mamy podaną zmienność w obrębie i pomiędzy przypisaniami (§ 25.7).
Rok
6

Powtarzający się komentarz z góry:

nie jestem pewien, czy istnieje nawet odpowiednie analityczne rozwiązanie tego problemu. Przejrzałem trochę dodatkowej literatury, ale wszędzie ten problem jest elegancko pomijany. Zauważyłem również, że Yucel i Demirtas (w artykule, o którym wspomniałem, na stronie 798) piszą:

Te wielokrotnie przypisane zestawy danych zostały użyte do oszacowania modelu […] przy użyciu pakietu R lme4prowadzącego do 10 zestawów (beta, se (beta)), (sigma_b, se (sigma_b)), które zostały następnie połączone przy użyciu reguł łączenia MI określonych przez Wcierać.

Wygląda na to, że użyli jakiegoś skrótu do oszacowania SE składnika wariancji (co oczywiście jest nieodpowiednie, ponieważ CI jest asymetryczny), a następnie zastosowali klasyczną formułę.

Rok
źródło
Rozumiem, że wróciłeś, aby podzielić się swoimi doświadczeniami z tym problemem. Niestety nie mam prawdziwego rozwiązania, ale może pojawią się inne sugestie.
chl
„Elegancko przeoczony” ... to przydatne wyrażenie do przeglądu literatury, jeśli kiedykolwiek ją usłyszałem.
Matt Parker,
3

Zastrzeżenie: Ten pomysł może być głupi i nie zamierzam udawać, że rozumiem teoretyczne implikacje tego, co proponuję.

Sugestia: dlaczego po prostu nie przypisujesz 100 (wiem, że zwykle robisz 5) zestawów danych, uruchom lme4 lub nmle, uzyskaj przedziały ufności (masz ich 100), a następnie:

Używając małej szerokości przedziału (powiedz zakres / 1000 lub coś takiego), przetestuj w zakresie możliwych wartości każdego parametru i uwzględnij tylko te małe przedziały, które występują w co najmniej 95 ze 100 CI. Miałbyś wtedy „średnią” Monte Carlo swoich przedziałów ufności.

Jestem pewien, że z tym podejściem wiążą się problemy (a może problemy teoretyczne). Na przykład możesz mieć zestaw rozłącznych interwałów. W zależności od dziedziny może to być, ale nie musi, zła rzecz. Pamiętaj, że jest to możliwe tylko wtedy, gdy masz co najmniej dwa całkowicie nie pokrywające się przedziały ufności, które są oddzielone regionem o pokryciu mniejszym niż 95%.

Możesz także rozważyć coś bliższego Bayesowskiemu traktowaniu brakujących danych, aby uzyskać tylny wiarygodny region, który z pewnością byłby lepiej uformowany i bardziej teoretycznie wspierany niż moja sugestia ad-hoc.

M. Tibbits
źródło