Załóżmy, że mam zestaw przykładowych danych z nieznanego lub złożonego rozkładu i chcę przeprowadzić wnioskowanie na temat statystyki danych. Domyślną nachylenia jest tylko generować kilka próbek bootstrap z wymianą i obliczyć moje statystyki na każdej próbce bootstrap stworzyć szacunkowy podział dla .
Jakie są przykłady, w których jest to zły pomysł?
Na przykład jednym z przypadków, w którym naiwne wykonanie tego ładowania początkowego byłoby nieskuteczne, polega na tym, że próbuję użyć ładowania początkowego na danych szeregów czasowych (powiedzmy, aby sprawdzić, czy mam znaczną autokorelację). Naiwny bootstrap opisany powyżej (generowanie tego punktu danych n-tej serii próbnej bootstrapu przez próbkowanie z zamiennikiem z mojej oryginalnej serii) byłby (jak sądzę) odradzany, ponieważ ignoruje strukturę w mojej oryginalnej serii czasowej, więc zdobądź bardziej zaawansowane techniki ładowania, takie jak blokowanie ładowania.
Innymi słowy, co jest w bootstrap oprócz „próbkowania z zamianą”?
Odpowiedzi:
Jeśli interesująca Cię ilość, zwykle będąca funkcją dystrybucji, jest dość płynna, a twoje dane są ukryte, to zazwyczaj znajdujesz się na dość bezpiecznym terytorium. Oczywiście są też inne okoliczności, w których bootstrap również będzie działał.
Co to znaczy, że bootstrap „zawiedzie”
Mówiąc ogólnie, celem bootstrap jest skonstruowanie przybliżonego rozkładu próbkowania dla statystyki będącej przedmiotem zainteresowania. Nie chodzi o faktyczne oszacowanie parametru. Tak więc, jeśli statystyka będąca przedmiotem zainteresowania (przy pewnym przeskalowaniu i centrowaniu) to i w dystrybucji, chcielibyśmy, aby nasza dystrybucja bootstrap są zbieżne z rozkładem . Jeśli tego nie mamy, nie możemy ufać dokonanym wnioskom.X^n X^n→X∞ X∞
Kanoniczny przykład kiedy bootstrap może zawieść, nawet w ramach IWP jest podczas próby przybliżenia rozkładu próbkowania skrajnym statystyki zamówienia. Poniżej znajduje się krótka dyskusja.
Statystyka maksymalnego rzędu losowej próbki z rozkładuU[0,θ]
Niech będą ciągiem iid jednolitych zmiennych losowych na . Niech . Dystrybucja to (Zauważ, że za pomocą bardzo prostego argumentu faktycznie pokazuje to, że prawdopodobnie, a nawet, prawie na pewno , jeśli wszystkie losowe zmienne są zdefiniowane w tym samym miejscu.)X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Obliczenia elementarne dają lub, innymi słowy, zbiega się w rozkładzie do wykładniczej zmiennej losowej o średniej .
Teraz tworzymy (naiwny) szacunek ładowania początkowego rozkładu poprzez próbkowanie z zamianą w celu uzyskania i użycie rozkładu z od .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Zauważ jednak, że z prawdopodobieństwem , a zatem rozkład ładowania początkowego ma masę punktową równą zero, nawet asymptotycznie pomimo fakt, że faktyczny rozkład graniczny jest ciągły.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Mówiąc dokładniej, chociaż prawdziwy rozkład graniczny jest wykładniczy ze średnią , ograniczający rozkład ładowania początkowego umieszcza masę punktową na zero o wielkości niezależnie od faktycznej wartości . Przyjmując wystarczająco dużą, możemy sprawić, że prawdopodobieństwo prawdziwej dystrybucji ograniczającej będzie dowolne dla dowolnego ustalonego interwału , ale bootstrap ( nadal !) Zgłasza, że w tym przedziale istnieje prawdopodobieństwo co najmniej 0,632! Z tego powinno być jasne, że bootstrap może zachowywać się dowolnie źle w tym ustawieniu.θ 1−e−1≈0.632 θ θ [0,ε)
Podsumowując, bootstrap kończy się niepowodzeniem (niestety) w tym przypadku. W przypadku parametrów znajdujących się na skraju przestrzeni parametrów rzeczy mają się źle.
Przykład z próbki normalnych zmiennych losowych
Istnieją inne podobne przykłady awarii paska startowego w zaskakująco prostych okolicznościach.
Rozważ próbkę z gdzie przestrzeń parametrów dla jest ograniczona do . MLE w tym przypadku to . Ponownie używamy oszacowania bootstrap . Ponownie można wykazać, że rozkład ( od obserwowanej próbki) nie jest zbieżny z tym samym ograniczającym rozkładem co .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Wymienne tablice
Być może jednym z najbardziej dramatycznych przykładów jest tablica wymienna. Niech będzie tablicą zmiennych losowych takich, że dla każdej pary macierzy permutacji i , tablice i mają ten sam wspólny rozkład. Oznacza to, że permutowanie wierszy i kolumn utrzymuje niezmienność rozkładu. (Przykładem może być dwukierunkowy model efektów losowych z jedną obserwacją na komórkę, chociaż model jest znacznie bardziej ogólny).Y=(Yij) P Q Y PYQ Y
Załóżmy, że chcemy oszacować przedział ufności dla średniej (z powodu opisanego powyżej założenia wymienności średnich wszystkich komórki muszą być takie same).μ=E(Yij)=E(Y11)
McCullagh (2000) rozważył dwa różne naturalne (tj. Naiwne) sposoby bootstrapowania takiej tablicy. Żadne z nich nie ma wariancji asymptotycznej dla średniej próby prawidłowej. Rozważa także kilka przykładów tablic wymiennych w jedną stronę i regresji liniowej.
Bibliografia
Niestety tematyka nie jest błaha, więc żaden z nich nie jest szczególnie łatwy do odczytania.
źródło
Następująca książka zawiera rozdział (rozdz. 9) poświęcony „Gdy ładowanie początkowe kończy się niepowodzeniem wraz ze środkami zaradczymi na awarie”:
MR Chernick, Metody Bootstrap: Przewodnik dla praktyków i badaczy , wyd. 2. Hoboken NJ: Wiley-Interscience, 2008.
Tematy to:
źródło
Naiwny bootstrap zależy od wielkości próbki, tak że empiryczny CDF dla danych jest dobrym przybliżeniem do „prawdziwego” CDF. Zapewnia to, że próbkowanie z empirycznego CDF jest bardzo podobne do próbkowania z „prawdziwego” CDF. Skrajny przypadek ma miejsce, gdy próbkuje się tylko jeden punkt danych - ładowanie początkowe tutaj niczego nie osiąga. Stanie się coraz bardziej bezużyteczny w miarę zbliżania się do tego zdegenerowanego przypadku.
Naiwne ładowanie niekoniecznie zawiedzie w analizie szeregów czasowych (choć może być nieefektywne) - jeśli modelujesz tę serię przy użyciu podstawowych funkcji czasu ciągłego (takich legendarnych wielomianów) dla komponentu trendu oraz funkcji sinus i cosinus ciągłego czasu dla cyklu komponenty (plus normalny błąd błędu hałasu). Następnie po prostu wstawiasz kiedykolwiek próbkę do funkcji prawdopodobieństwa. Tu nie ma katastrofy do ładowania.
Każdy model autokorelacji lub ARIMA ma reprezentację w powyższym formacie - ten model jest po prostu łatwiejszy w użyciu i myślę, że należy go zrozumieć i zinterpretować (łatwe do zrozumienia cykle w funkcjach sinus i cosinus, trudne do zrozumienia współczynniki modelu ARIMA). Na przykład funkcją autokorelacji jest odwrotna transformata Fouriera widma mocy szeregu czasowego.
źródło