Zazwyczaj mam do czynienia z danymi, w których każda z wielu osób jest mierzona wiele razy w każdym z 2 lub więcej warunków. Ostatnio bawiłem się modelowaniem efektów mieszanych w celu oceny dowodów na różnice między warunkami, modelowanie individual
jako efekt losowy. Aby zwizualizować niepewność dotyczącą prognoz z takiego modelowania, korzystałem z ładowania początkowego, w którym przy każdej iteracji ładowania początkowego pobierane są próbki zarówno osobników, jak i obserwacji w warunkach-wewnątrz-osobników z zamianą i obliczany jest nowy model efektu mieszanego, na podstawie którego przewidywania otrzymuje. Działa to dobrze w przypadku danych, które zakładają błąd gaussowski, ale gdy dane są dwumianowe, ładowanie może potrwać bardzo długo, ponieważ każda iteracja musi obliczyć względnie intensywny obliczeniowy dwumianowy model efektów mieszanych.
Pomyślałem, że mógłbym użyć resztek z oryginalnego modelu, a następnie użyć tych reszt zamiast surowych danych w ładowaniu początkowym, co pozwoliłoby mi obliczyć gaussowski model efektu mieszanego przy każdej iteracji ładowania początkowego. Dodanie oryginalnych predykcji z dwumianowego modelu surowych danych do predykcji bootstrapped z reszt daje 95% CI dla pierwotnych predykcji.
Jednak niedawno kodowałem prostą ocenę tego podejścia, modelując brak różnicy między dwoma warunkami i obliczając odsetek przypadków, w których 95% przedział ufności nie obejmował zera, i stwierdziłem, że powyższa procedura ładowania oparta na resztach daje dość silnie anty- konserwatywne interwały (wykluczają zero więcej niż 5% czasu). Ponadto kodowałem następnie (taki sam link jak poprzednio) podobną ocenę tego podejścia, jak w przypadku danych pierwotnie gaussowskich, i uzyskałem podobnie (choć nie tak skrajnie) antykonserwatywne CI. Wiesz, dlaczego to może być?
źródło
Odpowiedzi:
Pamiętaj, że wszystkie przedziały ufności bootstrap są tylko asymptotycznie na podanym poziomie ufności. Istnieje również wiele możliwych metod wyboru przedziałów ufności bootstrapu metoda percentylowa Efrona, metoda percentylowa Halla, podwójny bootstrap, bootstrap t, przechylony bootstrap, BC, BCa i może kilka innych. Nie powiedziałeś nam, jakiej metody używasz. Artykuł Schenkera w JASA 1985 wykazał, że dla niektórych rozkładów chi-kwadrat przedział ufności ładowania początkowego BC był niższy niż reklamowany procent. W przypadku problemów z małą próbką problem ten może być poważny. LaBudde i ja mamy dwa artykuły pokazujące, jak w małych próbkach nawet BCa może mieć bardzo słaby zasięg przy szacowaniu wariancji z rozkładu logarytmicznego i istnieje podobny problem przy testowaniu równości dwóch wariancji. To tylko prosty problem. Oczekuję, że to samo może się zdarzyć z resztkami z modeli mieszanych. W naszej nowej książce „Wprowadzenie do metod ładowania z aplikacjami do R” opublikowanej przez Wiley w 2011 r. Omawiamy ten temat w sekcji 3.7 i dostarczamy referencje. Zaskakujące jest to, że metoda percentylowa czasami radzi sobie lepiej niż metoda BCa z dokładnym rzędem, gdy wielkość próbki jest niewielka.
źródło