Logiką wielokrotnej imputacji (MI) jest przypisywanie brakujących wartości nie jeden raz, ale kilka razy (zwykle M = 5) razy, co skutkuje M zakończonymi zestawami danych. M zakończonych zestawów danych jest następnie analizowanych metodami kompletnych danych, na podstawie których szacunki M i ich błędy standardowe są łączone przy użyciu wzorów Rubina w celu uzyskania „ogólnego” oszacowania i jego błędu standardowego.
Jak dotąd świetnie, ale nie jestem pewien, jak zastosować ten przepis, jeśli chodzi o komponenty wariancji modelu z efektami mieszanymi. Rozkład próbkowania składnika wariancji jest asymetryczny - dlatego odpowiedniego przedziału ufności nie można podać w typowej postaci „szacunek ± 1,96 * se (szacunek)”. Z tego powodu pakiety R lme4 i nlme nawet nie dostarczają standardowych błędów składników wariancji, a jedynie przedziały ufności.
Możemy zatem wykonać MI dla zestawu danych, a następnie uzyskać M przedziałów ufności dla komponentu wariancji po dopasowaniu tego samego modelu efektu mieszanego w M ukończonych zestawach danych. Pytanie brzmi, jak połączyć te przedziały M w jeden „ogólny” przedział ufności.
Wydaje mi się, że powinno to być możliwe - wydaje się, że autorzy artykułu (Yucel i Demirtas (2010) Wpływ nietypowych losowych efektów na wnioskowanie przez MI), ale nie wyjaśniają dokładnie, jak to zrobić.
Wszelkie wskazówki byłyby bardzo zobowiązane!
Pozdrawiam, Rok
Odpowiedzi:
To świetne pytanie! Nie jestem pewien, czy jest to pełna odpowiedź, jednak zostawiam kilka wierszy na wypadek, gdyby to pomogło.
Wydaje się, że Yucel i Demirtas (2010) odnoszą się do starszej pracy opublikowanej w JCGS, Strategie obliczeniowe dla wielowymiarowych liniowych modeli efektów mieszanych z brakującymi wartościami , która wykorzystuje hybrydowe podejście punktacji EM / Fisher do sporządzania szacunków VC opartych na prawdopodobieństwie . Został zaimplementowany w pakiecie R mlmmm . Nie wiem jednak, czy produkuje elementy CI.
W przeciwnym razie zdecydowanie sprawdziłbym program WinBUGS , który jest w dużej mierze wykorzystywany w modelach wielopoziomowych, w tym tych z brakującymi danymi. Wydaje mi się, że pamiętam, że zadziała to tylko wtedy, gdy twój MV znajduje się w zmiennej odpowiedzi, a nie w zmiennych towarzyszących, ponieważ generalnie musimy określić pełne rozkłady warunkowe (jeśli MV są obecne w zmiennych niezależnych, oznacza to, że musimy podać brakujące X, i to będzie traktowane jako parametr do oszacowania przez WinBUGS ...). Wydaje się, że dotyczy to również R, jeśli odwołam się do następującego wątku na temat mieszania r-sig, brakujących danych w lme, lmer, PROC MIXED . Warto też przyjrzeć się oprogramowaniu MLwiN .
źródło
Powtarzający się komentarz z góry:
nie jestem pewien, czy istnieje nawet odpowiednie analityczne rozwiązanie tego problemu. Przejrzałem trochę dodatkowej literatury, ale wszędzie ten problem jest elegancko pomijany. Zauważyłem również, że Yucel i Demirtas (w artykule, o którym wspomniałem, na stronie 798) piszą:
Wygląda na to, że użyli jakiegoś skrótu do oszacowania SE składnika wariancji (co oczywiście jest nieodpowiednie, ponieważ CI jest asymetryczny), a następnie zastosowali klasyczną formułę.
źródło
Zastrzeżenie: Ten pomysł może być głupi i nie zamierzam udawać, że rozumiem teoretyczne implikacje tego, co proponuję.
„ Sugestia ” : dlaczego po prostu nie przypisujesz 100 (wiem, że zwykle robisz 5) zestawów danych, uruchom lme4 lub nmle, uzyskaj przedziały ufności (masz ich 100), a następnie:
Używając małej szerokości przedziału (powiedz zakres / 1000 lub coś takiego), przetestuj w zakresie możliwych wartości każdego parametru i uwzględnij tylko te małe przedziały, które występują w co najmniej 95 ze 100 CI. Miałbyś wtedy „średnią” Monte Carlo swoich przedziałów ufności.
Jestem pewien, że z tym podejściem wiążą się problemy (a może problemy teoretyczne). Na przykład możesz mieć zestaw rozłącznych interwałów. W zależności od dziedziny może to być, ale nie musi, zła rzecz. Pamiętaj, że jest to możliwe tylko wtedy, gdy masz co najmniej dwa całkowicie nie pokrywające się przedziały ufności, które są oddzielone regionem o pokryciu mniejszym niż 95%.
Możesz także rozważyć coś bliższego Bayesowskiemu traktowaniu brakujących danych, aby uzyskać tylny wiarygodny region, który z pewnością byłby lepiej uformowany i bardziej teoretycznie wspierany niż moja sugestia ad-hoc.
źródło