Jakie są przykłady, w których zawodzi „naiwny bootstrap”?

Załóżmy, że mam zestaw przykładowych danych z nieznanego lub złożonego rozkładu i chcę przeprowadzić wnioskowanie na temat statystyki $T$ danych. Domyślną nachylenia jest tylko generować kilka próbek bootstrap z wymianą i obliczyć moje statystyki $T$ na każdej próbce bootstrap stworzyć szacunkowy podział dla $T$ .

Jakie są przykłady, w których jest to zły pomysł?

Na przykład jednym z przypadków, w którym naiwne wykonanie tego ładowania początkowego byłoby nieskuteczne, polega na tym, że próbuję użyć ładowania początkowego na danych szeregów czasowych (powiedzmy, aby sprawdzić, czy mam znaczną autokorelację). Naiwny bootstrap opisany powyżej (generowanie $i$ tego punktu danych n-tej serii próbnej bootstrapu przez próbkowanie z zamiennikiem z mojej oryginalnej serii) byłby (jak sądzę) odradzany, ponieważ ignoruje strukturę w mojej oryginalnej serii czasowej, więc zdobądź bardziej zaawansowane techniki ładowania, takie jak blokowanie ładowania.

Innymi słowy, co jest w bootstrap oprócz „próbkowania z zamianą”?

hypothesis-testing confidence-interval bootstrap raegtin
źródło

Jeśli chcesz wnioskować na temat średnich danych ID, bootstrap jest doskonałym narzędziem. Wszystko inne jest wątpliwe i wymaga indywidualnego dowodu słabej konwergencji.

StasK

Odpowiedzi:

Jeśli interesująca Cię ilość, zwykle będąca funkcją dystrybucji, jest dość płynna, a twoje dane są ukryte, to zazwyczaj znajdujesz się na dość bezpiecznym terytorium. Oczywiście są też inne okoliczności, w których bootstrap również będzie działał.

Co to znaczy, że bootstrap „zawiedzie”

Mówiąc ogólnie, celem bootstrap jest skonstruowanie przybliżonego rozkładu próbkowania dla statystyki będącej przedmiotem zainteresowania. Nie chodzi o faktyczne oszacowanie parametru. Tak więc, jeśli statystyka będąca przedmiotem zainteresowania (przy pewnym przeskalowaniu i centrowaniu) to i w dystrybucji, chcielibyśmy, aby nasza dystrybucja bootstrap są zbieżne z rozkładem . Jeśli tego nie mamy, nie możemy ufać dokonanym wnioskom. $\newcommand{\Xhat}{\hat{X}_n}\Xhat$ $\Xhat \to X_\infty$ $X_\infty$

Kanoniczny przykład kiedy bootstrap może zawieść, nawet w ramach IWP jest podczas próby przybliżenia rozkładu próbkowania skrajnym statystyki zamówienia. Poniżej znajduje się krótka dyskusja.

Statystyka maksymalnego rzędu losowej próbki z rozkładu $\;\mathcal{U}[0,\theta]$

Niech będą ciągiem iid jednolitych zmiennych losowych na . Niech . Dystrybucja to (Zauważ, że za pomocą bardzo prostego argumentu faktycznie pokazuje to, że prawdopodobnie, a nawet, prawie na pewno , jeśli wszystkie losowe zmienne są zdefiniowane w tym samym miejscu.) $X_1, X_2, \ldots$ $[0,\theta]$ $\newcommand{\Xmax}{X_{(n)}} \Xmax = \max_{1\leq k \leq n} X_k$ $\Xmax$

P (X_{(n)} \leq x) = (x / θ)^{n} .

$\renewcommand{\Pr}{\mathbb{P}}\Pr(\Xmax \leq x) = (x/\theta)^n \>.$

X_{(n)} \to θ

$\Xmax \to \theta$

Obliczenia elementarne dają lub, innymi słowy, zbiega się w rozkładzie do wykładniczej zmiennej losowej o średniej .

P (n (θ - X_{(n)}) \leq x) = 1 - (1 - \frac{x}{θ n})^{n} \to 1 - e^{- x / θ},

$\Pr( n(\theta - \Xmax) \leq x ) = 1 - \Big(1 - \frac{x}{\theta n}\Big)^n \to 1 - e^{-x/\theta} \>,$

n (θ - X_{(n)})

$n(\theta - \Xmax)$

θ

$\theta$

Teraz tworzymy (naiwny) szacunek ładowania początkowego rozkładu poprzez próbkowanie z zamianą w celu uzyskania i użycie rozkładu z od . $n(\theta - \Xmax)$ $X_1, \ldots, X_n$ $X_1^\star,\ldots,X_n^\star$ $n(\Xmax - \Xmax^\star)$ $X_1,\ldots,X_n$

Zauważ jednak, że z prawdopodobieństwem , a zatem rozkład ładowania początkowego ma masę punktową równą zero, nawet asymptotycznie pomimo fakt, że faktyczny rozkład graniczny jest ciągły. $\Xmax^\star = \Xmax$ $1 - (1-1/n)^n \to 1 - e^{-1}$

Mówiąc dokładniej, chociaż prawdziwy rozkład graniczny jest wykładniczy ze średnią , ograniczający rozkład ładowania początkowego umieszcza masę punktową na zero o wielkości niezależnie od faktycznej wartości . Przyjmując wystarczająco dużą, możemy sprawić, że prawdopodobieństwo prawdziwej dystrybucji ograniczającej będzie dowolne dla dowolnego ustalonego interwału , ale bootstrap ( nadal !) Zgłasza, że w tym przedziale istnieje prawdopodobieństwo co najmniej 0,632! Z tego powinno być jasne, że bootstrap może zachowywać się dowolnie źle w tym ustawieniu. $\theta$ $1−e^{-1} \approx 0.632$ $\theta$ $\theta$ $[0,\varepsilon)$

Podsumowując, bootstrap kończy się niepowodzeniem (niestety) w tym przypadku. W przypadku parametrów znajdujących się na skraju przestrzeni parametrów rzeczy mają się źle.

Przykład z próbki normalnych zmiennych losowych

Istnieją inne podobne przykłady awarii paska startowego w zaskakująco prostych okolicznościach.

Rozważ próbkę z gdzie przestrzeń parametrów dla jest ograniczona do . MLE w tym przypadku to . Ponownie używamy oszacowania bootstrap . Ponownie można wykazać, że rozkład ( od obserwowanej próbki) nie jest zbieżny z tym samym ograniczającym rozkładem co . $X_1, X_2, \ldots$ $\mathcal{N}(\mu,1)$ $\mu$ $[0,\infty)$ $\newcommand{\Xbar}{\bar{X}}\Xhat = \max(\bar{X},0)$ $\Xhat^\star = \max(\Xbar^\star, 0)$ $\sqrt{n}(\Xhat^\star - \Xhat)$ $\sqrt{n}(\Xhat - \mu)$

Wymienne tablice

Być może jednym z najbardziej dramatycznych przykładów jest tablica wymienna. Niech będzie tablicą zmiennych losowych takich, że dla każdej pary macierzy permutacji i , tablice i mają ten sam wspólny rozkład. Oznacza to, że permutowanie wierszy i kolumn utrzymuje niezmienność rozkładu. (Przykładem może być dwukierunkowy model efektów losowych z jedną obserwacją na komórkę, chociaż model jest znacznie bardziej ogólny). $\newcommand{\bm}[1]{\mathbf{#1}}\bm{Y} = (Y_{ij})$ $\bm{P}$ $\bm{Q}$ $\bm{Y}$ $\bm{P} \bm{Y} \bm{Q}$ $\bm{Y}$

Załóżmy, że chcemy oszacować przedział ufności dla średniej (z powodu opisanego powyżej założenia wymienności średnich wszystkich komórki muszą być takie same). $\mu = \mathbb{E}(Y_{ij}) = \mathbb{E}(Y_{11})$

McCullagh (2000) rozważył dwa różne naturalne (tj. Naiwne) sposoby bootstrapowania takiej tablicy. Żadne z nich nie ma wariancji asymptotycznej dla średniej próby prawidłowej. Rozważa także kilka przykładów tablic wymiennych w jedną stronę i regresji liniowej.

Bibliografia

Niestety tematyka nie jest błaha, więc żaden z nich nie jest szczególnie łatwy do odczytania.

P. Bickel i D. Freedman, Niektóre asymptotyczne teorie dotyczące bootstrapu . Ann. Stat. , vol. 9, nr 6 (1981) 1196–1217.

DWK Andrews, Niespójność paska ładującego, gdy parametr znajduje się na granicy przestrzeni parametrów , Econometrica , vol. 68, nr 2 (2000), 399–405.

P. McCullagh, Ponowne próbkowanie i wymienne tablice , Bernoulli , vol. 6, nr 2 (2000) 285–301.

EL Lehmann i JP Romano, Testowanie hipotez statystycznych , 3. miejsce. wyd., Springer (2005). [Rozdział 15: Ogólne duże przykładowe metody]

kardynał
źródło

Zachowanie ładowania początkowego statystyki zamówień wydaje mi się rozsądne, biorąc pod uwagę, że rozkład wykładniczy ma podobną „masę punktową” przy zera - Tryb rozkładu wykładniczego wynosi 0, więc wydaje się rozsądne, że prawdopodobieństwo powinno być niezerowe na najprawdopodobniej wartość! Pasek startowy prawdopodobnie byłby czymś bardziej podobnym do rozkładu geometrycznego, który jest dyskretnym analogiem wykładniczym. Nie potraktowałbym tego jako „awarii” bootstrapu - ponieważ szacowana ilość zawsze leży w odpowiednim przedziale

θ

$\theta$

θ \geq X_{(n)}

$\theta\geq X_{(n)}$

probabilislogic

@ kardynalny - rozkład asymptotyczny nie jest odpowiednim punktem odniesienia - chyba że masz nieskończoną próbkę. Rozkład programu ładującego należy porównać z rozkładem próby skończonej, który został zaprojektowany w przybliżeniu. To, co chcesz pokazać, to że w miarę jak liczba iteracji ładowania początkowego zbliża się do nieskończoności, rozkład ładowania początkowego zbiega się z rozkładem próbkowania skończonego . pozwolenie od jest rozwiązaniem przybliżonym, a nie dokładnym.

n \to \infty

$n\to\infty$

probabilityislogic

@cardinal +1, wcześniej głosowałem na pytanie, ale chcę tylko podziękować za bardzo dobrą odpowiedź, przykłady i linki do artykułów.

mpiktas,

@probabilityislogic, oczywiście w ogólnym zastosowaniu teorii asymptotycznej zależy od współczynnika konwergencji, jeśli jest wolny, to nie ma zastosowania. Ale musisz wtedy wykazać, że szybkość jest niska, ponieważ podejrzewam, że na przykład przy równomiernym rozkładzie przy wielkości próbki 100 napotkasz problemy opisane na kardynał.

mpiktas,

@probabilityislogic, na początku widziałem tylko ten ostatni z dwóch ostatnich komentarzy. Aby rozwiązać ten pierwszy problem, możesz zobaczyć dwa pierwsze zdania powyższej sekcji z nagłówkiem „Co oznacza, że bootstrap„ zawiedzie ”, gdzie jest to wyraźnie rozwiązane. Bootstrap nie polega na oszacowaniu parametru. Zakładamy, że mamy dobry sposób na oszacowanie pożądanego parametru (w tym przypadku działa dobrze). Bootstrap polega na tym, aby wiedzieć coś o rozkładzie parametru, abyśmy mogli wnioskować. Tutaj bootstrap źle rozkłada ( bardzo! ).

X_{(n)}

$X_{(n)}$

kardynał

Następująca książka zawiera rozdział (rozdz. 9) poświęcony „Gdy ładowanie początkowe kończy się niepowodzeniem wraz ze środkami zaradczymi na awarie”:

MR Chernick, Metody Bootstrap: Przewodnik dla praktyków i badaczy , wyd. 2. Hoboken NJ: Wiley-Interscience, 2008.

Tematy to:

Zbyt mały rozmiar próbki
Dystrybucje z nieskończonymi momentami
Szacowanie ekstremalnych wartości
Pobieranie próbek z ankiety
Sekwencje danych, które są zależne od M
Niestabilne procesy autoregresyjne
Zależność dalekiego zasięgu

Sadeghd
źródło

Czy widziałeś ten komentarz do odpowiedzi w tym wątku? Nawiasem mówiąc, ten komentarz prowadzi do strony Amazon dla książki Chernicka; recenzje czytelników są pouczające.

whuber

@whuber Cóż, nie zauważyłem tego komentarza. Czy powinienem usunąć swoją odpowiedź?

Sadeghd

Ponieważ twoja odpowiedź jest bardziej szczegółowa niż odniesienie w komentarzu, potencjalnie ma wartość: ale zgodnie z polityką i celami SE fajnie byłoby zobaczyć ją wzbogaconą o wyjaśnienie, dlaczego polecasz tę książkę lub - jeszcze lepiej - aby zawrzeć w nim streszczenie informacji. W przeciwnym razie dodaje niewiele i należy go usunąć lub przekształcić w komentarz do pytania.

whuber

Naiwny bootstrap zależy od wielkości próbki, tak że empiryczny CDF dla danych jest dobrym przybliżeniem do „prawdziwego” CDF. Zapewnia to, że próbkowanie z empirycznego CDF jest bardzo podobne do próbkowania z „prawdziwego” CDF. Skrajny przypadek ma miejsce, gdy próbkuje się tylko jeden punkt danych - ładowanie początkowe tutaj niczego nie osiąga. Stanie się coraz bardziej bezużyteczny w miarę zbliżania się do tego zdegenerowanego przypadku.

Naiwne ładowanie niekoniecznie zawiedzie w analizie szeregów czasowych (choć może być nieefektywne) - jeśli modelujesz tę serię przy użyciu podstawowych funkcji czasu ciągłego (takich legendarnych wielomianów) dla komponentu trendu oraz funkcji sinus i cosinus ciągłego czasu dla cyklu komponenty (plus normalny błąd błędu hałasu). Następnie po prostu wstawiasz kiedykolwiek próbkę do funkcji prawdopodobieństwa. Tu nie ma katastrofy do ładowania.

Każdy model autokorelacji lub ARIMA ma reprezentację w powyższym formacie - ten model jest po prostu łatwiejszy w użyciu i myślę, że należy go zrozumieć i zinterpretować (łatwe do zrozumienia cykle w funkcjach sinus i cosinus, trudne do zrozumienia współczynniki modelu ARIMA). Na przykład funkcją autokorelacji jest odwrotna transformata Fouriera widma mocy szeregu czasowego.

prawdopodobieństwo prawdopodobieństwa
źródło

@probabilityislogic -1, przypadkowo przegłosowałem odpowiedź wcześniej (obwinianie Opery mini), więc musiałem ją edytować, aby móc głosować, przepraszam za stosowanie takiej taktyki. Zrobiłem to tylko dlatego, że początkowo nie podobała mi się odpowiedź, ale nie głosowałem za nią, ponieważ chciałem przygotować moje argumenty, które podam w poniższym komentarzu.

mpiktas,

@probabilityislogic, dla procesów szeregów czasowych czas odgrywa ważną rolę, więc rozkład wektora różni się od . Ponowne próbkowanie wykonane w naiwnym bootstrapie niszczy tę strukturę, więc na przykład, jeśli spróbujesz dopasować model AR (1), po ponownym próbkowaniu możesz uzyskać, że próbujesz dopasować jako , co jest nie wydaje się naturalne. Jeśli wyszukujesz w Google „ładowanie szeregów czasowych”, drugi artykuł podaje przykład szacunku wariancji szeregów czasowych ...

(X_{t}, X_{t + 1})

$(X_t,X_{t+1})$

(X_{t + 1}, X_{t})

$(X_{t+1},X_t)$

Y_{10}

$Y_{10}$

ρ Y_{15}

$\rho Y_{15}$

mpiktas

@probabilityislogic, czy byłoby możliwe, abyś zademonstrował swój pomysł w swojej odpowiedzi na naiwny szacunek bootstrap dla w modelu AR (1) ? Nie sądzę, że jest to możliwe, stąd podstawowa przyczyna odrzucenia opinii. Byłbym szczęśliwy mogąc udowodnić, że się mylę.

ρ

$\rho$

Y_{t} = ρ Y_{t - 1} + u_{t}

$Y_t=\rho Y_{t-1}+u_t$

mpiktas,

@probabilityislogic, i? Jaka będzie w takim przypadku ocena ? Przepraszam za dręczenie, ale naprawdę nie rozumiem, jak możesz pokazać, że naiwny bootstrap nie zawiedzie w tym przypadku.

r h o

$rho$

mpiktas

Moja książka tutaj zawiera rozdział o tym, kiedy bootstrap kończy się niepowodzeniem, a także rozdział o tym, jak bootstrap jest stosowany w szeregach czasowych. W przypadku szeregów czasowych pasek startowy można zastosować do reszt z modelu w podejściu opartym na modelu. Drugim nieparametrycznym podejściem w dziedzinie czasu jest blokowy bootstrap, którego jest wiele rodzajów.

Michael Chernick