Pasek startowy, w standardowej formie, może być używany do obliczania przedziałów ufności szacunkowych statystyk, pod warunkiem, że obserwacje są identyczne. I. Visser i in. w „ Przedziałach ufności dla parametrów ukrytego modelu Markowa ” wykorzystano parametryczny bootstrap do obliczenia CI dla parametrów HMM. Jednak, gdy dopasowujemy HMM do sekwencji obserwacji, już założyliśmy, że obserwacje są zależne (w przeciwieństwie do modeli mieszanych).
Mam dwa pytania:
- Co założenie idid robi z bootstrap?
- Czy możemy zignorować wymaganie iid w parametrycznym bootstrapie?
Visser i in. metoda jest następująco:
- Załóżmy, że mamy sekwencję obserwacji wynikającą z próbkowania HMM z rzeczywistym, ale nieznanym zestawem parametrów .
- Parametry można oszacować za pomocą algorytmu EM:
- Użyj szacowanego HMM, aby wygenerować próbkę ładowania początkowego o rozmiarze :
- Oszacuj parametry HMM według przykładu ładowania początkowego:
- Powtórz kroki 3 i 4 dla czasów (np. = 1000), co daje oszacowania ładowania początkowego:
- Obliczyć CI każdego oszacowanego parametru używając rozkładu w oszacowaniach bootstrap.
Uwagi (moje ustalenia):
- Metodę percentylową należy stosować do obliczania CI, aby uzyskać prawidłowe pokrycie (normalność jest złym założeniem).
- Bias dystrybucji bootstrap powinien zostać poprawiony. Oznacza to, że średni rozkład powinien zostać przesunięty do
Odpowiedzi:
Krótkie odpowiedzi: 1. Upraszcza to. (Szczerze mówiąc, nie dostałem pytania). 2. Nie, nigdy nie można tego zignorować, ponieważ brak iid ma bezpośrednie konsekwencje dla wariancji tego, co szacujesz.
Średnia odpowiedź: głównym problemem związanym z bootstrap jest: „Czy proponowana procedura odtwarza funkcje danych?” . Naruszenie założenia iid to wielka sprawa: twoje dane są zależne, masz (najprawdopodobniej) mniej informacji w swoich danych niż w próbce iid o tym samym rozmiarze, a jeśli uruchomisz naiwny bootstrap (ponownie próbkuj indywidualną obserwacje), standardowe błędy, które z niego wynikają, będą zbyt małe. Proponowana procedura pozwala obejść problem braku niezależności, wychwytując (lub przynajmniej próbując uchwycić) zależność w strukturze i parametrach modelu. Jeśli się powiedzie, każda próbka ładowania początkowego odtworzy funkcje danych, w razie potrzeby.
Długa odpowiedź:Istnieje wiele warstw założeń dotyczących bootstrapu, i nawet w najprostszym możliwym przypadku (dane iid, oszacowanie średniej), musisz przyjąć co najmniej trzy założenia: (1) statystyka będąca przedmiotem zainteresowania jest płynną funkcją danych (prawda w przypadku średniej, nie tak prawdziwa nawet w przypadku percentyli, całkowicie bez powiedzmy najbliższych sąsiadów estymatorów dopasowujących); (2) rozkład, z którego ładujesz się, jest „zbliżony” do rozkładu populacji (działa OK w przypadku danych id; może nie działać OK w przypadku danych zależnych, gdzie zasadniczo masz tylko jedną trajektorię = jedna obserwacja w przypadek szeregów czasowych i trzeba powołać się na dodatkowe założenia, takie jak stacjonarność i mieszanie, aby streścić tę pojedynczą obserwację w quasi-populacji); (3) próbkowanie bootstrapu w Monte Carlo jest wystarczająco dobrym przybliżeniem do pełnego bootstrapu ze wszystkimi możliwymi podpróbkami (niedokładność użycia Monte Carlo w porównaniu do pełnego bootstrapu jest znacznie mniejsza niż niepewność, którą próbujesz uchwycić). W przypadku parametrycznego ładowania początkowego przyjmujesz również założenie, że (4) Twój model doskonale wyjaśnia wszystkie funkcje danych.
Jako ostrzeżenie o tym, co może pójść nie tak z (4), pomyśl o regresji z błędami heteroskedastycznymi: powiedzmy , Var . Jeśli pasujesz do modelu OLS i ponownie próbkujesz resztki tak, jakby były tam iid, otrzymasz błędną odpowiedź (jakiś rodzaj gdzie to średnia , zamiast odpowiedniegoy=xβ+ϵ [ϵ]=exp[xγ] σ¯2(X′X)−1 σ¯2 1/n∑iexp[xiγ] (X′X)−1∑exp[xiγ]xix′i(X′X)−1 ). Więc jeśli chcesz mieć w pełni parametryczne rozwiązanie ładowania początkowego, musisz dopasować model do heteroskedastyczności wraz z modelem średniej. A jeśli podejrzewasz korelację szeregową lub inną, musiałbyś również do tego dopasować model. (Zobacz, nieparametryczny smak dystrybucji początkowej nieparametrycznie zniknął, ponieważ zastąpiłeś głos danych syntetycznym głosem twojego modelu).
Opisana metoda działa w oparciu o założenie iid, tworząc zupełnie nową próbkę. Największym problemem związanym z ładowaniem danych zależnych jest utworzenie próbki, która miałaby wzorce zależności wystarczająco zbliżone do wzorców w danych oryginalnych. Z szeregami czasowymi możesz użyć blokowych bootstrapów; z danymi klastrowymi ładujesz całe klastry; z regresją heteroskedastyczną musisz to zrobić przy użyciu dzikich bootstrapów (co jest lepszym pomysłem niż bootstrap reszt, nawet jeśli dopasowałeś do niego heteroskedastyczny model). W bloku ładowania początkowego musisz odgadnąć (lub innymi słowy, mieć dobre powody, by sądzić), że odległe części szeregów czasowych są w przybliżeniu niezależne, tak że cała struktura korelacji jest przechwytywana przez sąsiednie 5 lub 10 obserwacje, które tworzą blok. Zamiast więc przeprowadzania ponownych próbkowania obserwacji jeden po drugim, co całkowicie ignoruje strukturę korelacji szeregów czasowych, ponownie próbkuje się je w blokach, mając nadzieję, że przestrzega to struktury korelacji. Parametryczny bootstrap, o którym mówiłeś, mówi: „Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego po prostu nie wybijam dla ciebie całej uformowanej Barbie? Zastanawiałem się, jaki to rodzaj z Barbie, które lubisz i obiecuję, że zrobię ci też taką, którą zechcesz. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”.
W przypadku parametrycznego bootstrapu, który opisałeś, musisz być cholernie pewien, że dopasowanie modelu HMM jest prawie idealne, w przeciwnym razie twój parametryczny bootstrap może prowadzić do nieprawidłowych wyników (Barbie, które nie mogą poruszać rękami). Pomyśl o powyższym przykładzie regresji heteroskedastycznej; lub pomyśl o dopasowaniu modelu AR (1) do danych AR (5): cokolwiek zrobisz z parametrycznie symulowanymi danymi, nie będą miały struktury, jaką miały pierwotne dane.
Edytuj : kiedy Sadeghd wyjaśnił swoje pytanie, ja również mogę na to odpowiedzieć. Istnieje ogromna różnorodność procedur ładowania początkowego, z których każda dotyczy konkretnego dziwactwa w zakresie statystyki, wielkości próby, zależności lub jakiegokolwiek innego problemu z ładowaniem początkowym. Nie ma na przykład jednego sposobu rozwiązania problemu zależności. (Pracowałem z bootstrapami ankiet, istnieje około 8 różnych procedur, chociaż niektóre mają raczej charakter metodologiczny niż praktyczny; a niektóre są wyraźnie gorsze, ponieważ mają zastosowanie tylko w szczególnych, trudnych do uogólnienia przypadkach.) ogólna dyskusja na temat problemów, które możesz napotkać przy ładowaniu, patrz Canty, Davison, Hinkley i Ventura (2006). Diagnostyka i środki zaradcze dotyczące ładowania początkowego. The Canadian Journal of Statistics, 34 (1), 5-27 .
źródło