Czy możemy użyć próbek bootstrap, które są mniejsze niż próbka oryginalna?

12

Chcę użyć ładowania początkowego, aby oszacować przedziały ufności dla szacowanych parametrów z zestawu danych panelu z N = 250 firmami i T = 50 miesiącami. Oszacowanie parametrów jest drogie obliczeniowo (kilka dni obliczeń) ze względu na zastosowanie filtrowania Kalmana i złożonej estymacji nieliniowej. Dlatego pobieranie (z zastąpieniem) próbek B (w setkach lub więcej) M = N = 250 firm z próbki oryginalnej i szacowanie parametrów czasów B jest obliczeniowo niewykonalne, mimo że jest to podstawowa metoda ładowania początkowego.

Zastanawiam się więc nad użyciem mniejszego M (np. 10) dla próbek bootstrap (zamiast pełnego rozmiaru N = 250), losowo rysowanych z zamiennikiem z oryginalnych firm, a następnie skalować oszacowaną przez bootstrap macierz kowariancji parametrów modelu za pomocą (w powyższym przykładzie 1/25), aby obliczyć macierz kowariancji dla parametrów modelu oszacowanych na pełnej próbce.1NM

Pożądane przedziały ufności można następnie aproksymować w oparciu o założenie normalności lub empiryczne dla mniejszej próbki skalowane przy użyciu podobnej procedury (np. Skalowane w dół o współczynnik .1NM

Czy to obejście ma sens? Czy istnieją teoretyczne wyniki, które to uzasadniają? Jakieś alternatywy, aby poradzić sobie z tym wyzwaniem?

Hazhir
źródło

Odpowiedzi:

4

To pytanie zostało zadane dawno temu, ale zamieszczam odpowiedź na wypadek, gdyby ktoś odkrył ją w przyszłości. Krótko mówiąc, odpowiedź brzmi tak: możesz to zrobić w wielu ustawieniach, a poprawność wielkości próby jest uzasadniona przez . Takie podejście jest zwykle nazywane boostraperem z i działa w większości ustawień, które wykonuje `` tradycyjny '' bootstrap, a także w niektórych ustawieniach, w których nie działa.MNMN

Powodem jest to, że wiele argumentów spójności ładowania początkowego używa estymatorów w postaci , gdzie są zmiennymi losowymi, a jest pewnym parametrem rozkład podstawowy. Na przykład dla średniej próbki i .1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

Wiele dowodów zgodności bootstrap argumentuje, że jako , biorąc pod uwagę skończoną próbkę i powiązane oszacowanie punktu , gdzie są rysowane z prawdziwego rozkładu leżącego u podstaw, a są rysowane z zastąpieniem z .N{x1,,xN}μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

Moglibyśmy jednak również użyć krótszych próbek o długości i rozważyć estymator Okazuje się, że jako estymator ( ) ma taki sam rozkład ograniczenia jak powyżej w większości ustawień, w których ( ) trzyma i niektóre tam, gdzie nie. W tym przypadku ( ) i ( ) mają ten sam rozkład graniczny, motywując współczynnik korygujący np. W odchyleniu standardowym próbki.M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

Wszystkie te argumenty są asymptotyczne i trzymają się tylko granicy . Aby to zadziałało, ważne jest, aby nie wybierać za małego. Istnieje pewna teoria (np. Bickel i Sakov poniżej), jak wybrać optymalne jako funkcję aby uzyskać najlepsze wyniki teoretyczne, ale w twoim przypadku decydujące mogą być zasoby obliczeniowe.M,NM MN

Dla pewnej intuicji: w wielu przypadkach mamy jako , więc można traktować trochę jak poza bootstrap z i (używam małych liter, aby uniknąć pomyłki w notacji ). W ten sposób emulowanie rozkładu ( ) za pomocą z bootstrapu z jest bardziej `` właściwą '' rzeczą niż tradycyjne ( zμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=MNM<NNN3MNM<NNN) uprzejmy. Dodatkowym bonusem w twoim przypadku jest to, że jego wycena jest tańsza pod względem obliczeniowym.

Jak wspomniałeś, głównym tematem są Politis i Romano. Bickel i wsp. (1997) znajduję również poniżej ładny przegląd z bootstrapu.MN

Źródła :

PJ Bickel, F Goetze, WR van Zwet. 1997. Ponowne próbkowanie mniej niż obserwacji: zyski, straty i środki zaradcze na straty. Statistica Sinica.n

PJ Bickel, A Sakov. 2008. Z wyboru w ouf z bootstrap i granice ufności dla ekstremów. Statistica Sinica.mmn

aph416
źródło
3

Po przeczytaniu więcej na ten temat wydaje się, że w ramach „podpróbkowania” istnieje ustalona teoria pozwalająca na wykonanie tego rodzaju oszacowania przedziału ufności. Kluczowym odniesieniem jest „Politis, DN; Romano, JP (1994). Regiony ufności dla dużej próby oparte na podpróbkach przy minimalnych założeniach. Annals of Statistics, 22, 2031-2050”.

Chodzi o to, aby narysować próbki o rozmiarze M <N, „bez zamiany” dla każdej próbki (ale z zastąpieniem różnych próbek o wielkości B), z N początkowych punktów danych (w moim przypadku serii) i oszacować przedział ufności parametr będący przedmiotem zainteresowania przy użyciu tych próbek i typowej metody ładowania początkowego. Następnie skaluj przedział ufności w oparciu o szybkość zmiany wariancji leżącego u podstaw rozkładu parametru ze zmianami w M. Ten wskaźnik wynosi 1 / M w wielu powszechnych ustawieniach, ale można go empirycznie oszacować, jeśli powtórzymy procedurę z kilkoma różnymi M wartości i spójrz na zmiany wielkości zakresów międzypentylowych.

Hazhir
źródło