Obliczanie przedziałów ufności za pomocą paska startowego na podstawie obserwacji zależnych

Krótkie odpowiedzi: 1. Upraszcza to. (Szczerze mówiąc, nie dostałem pytania). 2. Nie, nigdy nie można tego zignorować, ponieważ brak iid ma bezpośrednie konsekwencje dla wariancji tego, co szacujesz.

Średnia odpowiedź: głównym problemem związanym z bootstrap jest: „Czy proponowana procedura odtwarza funkcje danych?” . Naruszenie założenia iid to wielka sprawa: twoje dane są zależne, masz (najprawdopodobniej) mniej informacji w swoich danych niż w próbce iid o tym samym rozmiarze, a jeśli uruchomisz naiwny bootstrap (ponownie próbkuj indywidualną obserwacje), standardowe błędy, które z niego wynikają, będą zbyt małe. Proponowana procedura pozwala obejść problem braku niezależności, wychwytując (lub przynajmniej próbując uchwycić) zależność w strukturze i parametrach modelu. Jeśli się powiedzie, każda próbka ładowania początkowego odtworzy funkcje danych, w razie potrzeby.

Długa odpowiedź:Istnieje wiele warstw założeń dotyczących bootstrapu, i nawet w najprostszym możliwym przypadku (dane iid, oszacowanie średniej), musisz przyjąć co najmniej trzy założenia: (1) statystyka będąca przedmiotem zainteresowania jest płynną funkcją danych (prawda w przypadku średniej, nie tak prawdziwa nawet w przypadku percentyli, całkowicie bez powiedzmy najbliższych sąsiadów estymatorów dopasowujących); (2) rozkład, z którego ładujesz się, jest „zbliżony” do rozkładu populacji (działa OK w przypadku danych id; może nie działać OK w przypadku danych zależnych, gdzie zasadniczo masz tylko jedną trajektorię = jedna obserwacja w przypadek szeregów czasowych i trzeba powołać się na dodatkowe założenia, takie jak stacjonarność i mieszanie, aby streścić tę pojedynczą obserwację w quasi-populacji); (3) próbkowanie bootstrapu w Monte Carlo jest wystarczająco dobrym przybliżeniem do pełnego bootstrapu ze wszystkimi możliwymi podpróbkami (niedokładność użycia Monte Carlo w porównaniu do pełnego bootstrapu jest znacznie mniejsza niż niepewność, którą próbujesz uchwycić). W przypadku parametrycznego ładowania początkowego przyjmujesz również założenie, że (4) Twój model doskonale wyjaśnia wszystkie funkcje danych.

Jako ostrzeżenie o tym, co może pójść nie tak z (4), pomyśl o regresji z błędami heteroskedastycznymi: powiedzmy , Var . Jeśli pasujesz do modelu OLS i ponownie próbkujesz resztki tak, jakby były tam iid, otrzymasz błędną odpowiedź (jakiś rodzaj gdzie to średnia , zamiast odpowiedniego $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Więc jeśli chcesz mieć w pełni parametryczne rozwiązanie ładowania początkowego, musisz dopasować model do heteroskedastyczności wraz z modelem średniej. A jeśli podejrzewasz korelację szeregową lub inną, musiałbyś również do tego dopasować model. (Zobacz, nieparametryczny smak dystrybucji początkowej nieparametrycznie zniknął, ponieważ zastąpiłeś głos danych syntetycznym głosem twojego modelu).

Opisana metoda działa w oparciu o założenie iid, tworząc zupełnie nową próbkę. Największym problemem związanym z ładowaniem danych zależnych jest utworzenie próbki, która miałaby wzorce zależności wystarczająco zbliżone do wzorców w danych oryginalnych. Z szeregami czasowymi możesz użyć blokowych bootstrapów; z danymi klastrowymi ładujesz całe klastry; z regresją heteroskedastyczną musisz to zrobić przy użyciu dzikich bootstrapów (co jest lepszym pomysłem niż bootstrap reszt, nawet jeśli dopasowałeś do niego heteroskedastyczny model). W bloku ładowania początkowego musisz odgadnąć (lub innymi słowy, mieć dobre powody, by sądzić), że odległe części szeregów czasowych są w przybliżeniu niezależne, tak że cała struktura korelacji jest przechwytywana przez sąsiednie 5 lub 10 obserwacje, które tworzą blok. Zamiast więc przeprowadzania ponownych próbkowania obserwacji jeden po drugim, co całkowicie ignoruje strukturę korelacji szeregów czasowych, ponownie próbkuje się je w blokach, mając nadzieję, że przestrzega to struktury korelacji. Parametryczny bootstrap, o którym mówiłeś, mówi: „Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego po prostu nie wybijam dla ciebie całej uformowanej Barbie? Zastanawiałem się, jaki to rodzaj z Barbie, które lubisz i obiecuję, że zrobię ci też taką, którą zechcesz. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”.

W przypadku parametrycznego bootstrapu, który opisałeś, musisz być cholernie pewien, że dopasowanie modelu HMM jest prawie idealne, w przeciwnym razie twój parametryczny bootstrap może prowadzić do nieprawidłowych wyników (Barbie, które nie mogą poruszać rękami). Pomyśl o powyższym przykładzie regresji heteroskedastycznej; lub pomyśl o dopasowaniu modelu AR (1) do danych AR (5): cokolwiek zrobisz z parametrycznie symulowanymi danymi, nie będą miały struktury, jaką miały pierwotne dane.

Edytuj : kiedy Sadeghd wyjaśnił swoje pytanie, ja również mogę na to odpowiedzieć. Istnieje ogromna różnorodność procedur ładowania początkowego, z których każda dotyczy konkretnego dziwactwa w zakresie statystyki, wielkości próby, zależności lub jakiegokolwiek innego problemu z ładowaniem początkowym. Nie ma na przykład jednego sposobu rozwiązania problemu zależności. (Pracowałem z bootstrapami ankiet, istnieje około 8 różnych procedur, chociaż niektóre mają raczej charakter metodologiczny niż praktyczny; a niektóre są wyraźnie gorsze, ponieważ mają zastosowanie tylko w szczególnych, trudnych do uogólnienia przypadkach.) ogólna dyskusja na temat problemów, które możesz napotkać przy ładowaniu, patrz Canty, Davison, Hinkley i Ventura (2006). Diagnostyka i środki zaradcze dotyczące ładowania początkowego. The Canadian Journal of Statistics, 34 (1), 5-27 .

StasK
źródło

Żeby dodać trochę do twojego stwierdzenia o mniejszej ilości informacji, kiedy masz zależne klastry danych (w sekcji Medium ), uważam, że jest to prawdą, gdy istnieje dodatnia korelacja wewnątrzklasowa w klastrze, ale odwrotnie jest, gdy jest ujemna korelacja wewnątrzklasowa. Oczywiście wydaje się, że w większości rzeczywistych aplikacji danych korelacje wewnątrzklasowe są dodatnie.

Makro,

@Macro: z pewnością masz rację w obu kwestiach (że jest to technicznie możliwe i że jest praktycznie nieistotne). To samo stanie się, jeśli oszacujesz średni poziom procesu AR (1) z ujemną korelacją, ale znów nie mogę myśleć o prawdziwych procesach, które mogą mieć tę cechę. W przeciwieństwie do dodatniej autokorelacji, która jest odtwarzalna w różnych skalach czasowych, ujemna korelacja musi zniknąć, jeśli podwoisz długość okresu odniesienia. (Dane dotyczące cykli koniunkturalnych, takie jak PKB w USA, wykazują ujemne korelacje przy opóźnieniu wynoszącym około trzech lat.)

StasK

Dziękuję za szczegółową odpowiedź. Doszedłem do wniosku, że ponowne próbkowanie parametryczne może osłabić efekt zależności. Jednak rozkład parametryczny musi być w dużym stopniu reprezentatywny dla prawdziwej populacji, a wzorce zależności muszą zostać zregenerowane podczas ponownego próbkowania.

Sadeghd,

Obliczanie przedziałów ufności za pomocą paska startowego na podstawie obserwacji zależnych

Odpowiedzi: