Dlaczego ładowanie resztek z modelu efektów mieszanych daje antykonserwatywne przedziały ufności?

11

Zazwyczaj mam do czynienia z danymi, w których każda z wielu osób jest mierzona wiele razy w każdym z 2 lub więcej warunków. Ostatnio bawiłem się modelowaniem efektów mieszanych w celu oceny dowodów na różnice między warunkami, modelowanie individualjako efekt losowy. Aby zwizualizować niepewność dotyczącą prognoz z takiego modelowania, korzystałem z ładowania początkowego, w którym przy każdej iteracji ładowania początkowego pobierane są próbki zarówno osobników, jak i obserwacji w warunkach-wewnątrz-osobników z zamianą i obliczany jest nowy model efektu mieszanego, na podstawie którego przewidywania otrzymuje. Działa to dobrze w przypadku danych, które zakładają błąd gaussowski, ale gdy dane są dwumianowe, ładowanie może potrwać bardzo długo, ponieważ każda iteracja musi obliczyć względnie intensywny obliczeniowy dwumianowy model efektów mieszanych.

Pomyślałem, że mógłbym użyć resztek z oryginalnego modelu, a następnie użyć tych reszt zamiast surowych danych w ładowaniu początkowym, co pozwoliłoby mi obliczyć gaussowski model efektu mieszanego przy każdej iteracji ładowania początkowego. Dodanie oryginalnych predykcji z dwumianowego modelu surowych danych do predykcji bootstrapped z reszt daje 95% CI dla pierwotnych predykcji.

Jednak niedawno kodowałem prostą ocenę tego podejścia, modelując brak różnicy między dwoma warunkami i obliczając odsetek przypadków, w których 95% przedział ufności nie obejmował zera, i stwierdziłem, że powyższa procedura ładowania oparta na resztach daje dość silnie anty- konserwatywne interwały (wykluczają zero więcej niż 5% czasu). Ponadto kodowałem następnie (taki sam link jak poprzednio) podobną ocenę tego podejścia, jak w przypadku danych pierwotnie gaussowskich, i uzyskałem podobnie (choć nie tak skrajnie) antykonserwatywne CI. Wiesz, dlaczego to może być?

Mike Lawrence
źródło
hm, właśnie zauważyłem, że w kodzie generującym dane dla obu przypadków tak naprawdę nie dodałem żadnej zmienności międzyosobniczej, którą zwykle chciałoby się wyeliminować poprzez modelowanie jednostek jako efektów losowych. Zobaczę, czy dodanie tej zmienności zmienia wynik; z powrotem za kilka godzin ...
Mike Lawrence
Jeśli dobrze pamiętam, bootstrap przybliża oszacowanie do prawdziwej oceny populacji. Nie mówi nic o przedziale ufności. (por. Kesar Singh, O asymptotycznej dokładności paska ładunkowego Efrona. Ann. Statist., 1981, 9, 1187-1195)
suncoolsu
@me: Mogę potwierdzić, że dodanie zmienności międzyosobniczej w funkcji generowania danych nie poprawia wydajności bootstrapu. Przesłałem kod, którego użyłem, aby to potwierdzić, do listy powiązanej w oryginalnym poście.
Mike Lawrence
@ suncoolsu: Jestem całkiem pewien, że przedziały ufności podczas rozruchu były standardowe od dłuższego czasu. Efron wspomina o nich w swoim artykule z 1978 r., Opisującym ogólnie procedurę ładowania, a następnie napisał kilka dokumentów w latach 80. i 90. na temat poprawek procedury ładowania, aby uzyskać dokładniejsze przedziały ufności (korekta błędu, akceleracja, uczenie się itp.).
Mike Lawrence
1
Czytałeś następujący artykuł autorstwa Morrisa: „BLUPy nie są najlepsze, jeśli chodzi o ładowanie”. Może dotyczyć twojej pracy. link
lipiec

Odpowiedzi:

7

Pamiętaj, że wszystkie przedziały ufności bootstrap są tylko asymptotycznie na podanym poziomie ufności. Istnieje również wiele możliwych metod wyboru przedziałów ufności bootstrapu metoda percentylowa Efrona, metoda percentylowa Halla, podwójny bootstrap, bootstrap t, przechylony bootstrap, BC, BCa i może kilka innych. Nie powiedziałeś nam, jakiej metody używasz. Artykuł Schenkera w JASA 1985 wykazał, że dla niektórych rozkładów chi-kwadrat przedział ufności ładowania początkowego BC był niższy niż reklamowany procent. W przypadku problemów z małą próbką problem ten może być poważny. LaBudde i ja mamy dwa artykuły pokazujące, jak w małych próbkach nawet BCa może mieć bardzo słaby zasięg przy szacowaniu wariancji z rozkładu logarytmicznego i istnieje podobny problem przy testowaniu równości dwóch wariancji. To tylko prosty problem. Oczekuję, że to samo może się zdarzyć z resztkami z modeli mieszanych. W naszej nowej książce „Wprowadzenie do metod ładowania z aplikacjami do R” opublikowanej przez Wiley w 2011 r. Omawiamy ten temat w sekcji 3.7 i dostarczamy referencje. Zaskakujące jest to, że metoda percentylowa czasami radzi sobie lepiej niż metoda BCa z dokładnym rzędem, gdy wielkość próbki jest niewielka.

Michael R. Chernick
źródło