Bootstrap: problem nadmiernego dopasowania

14

Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki B o wielkości n każda z oryginalnych n obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf:

http://en.wikipedia.org/wiki/Empirical_distribution_function

a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z rzędu.nB

Jeśli mam rację, należy zająć się problemem nadmiernego dopasowania, ponieważ empiryczny plik cdf ma około N parametrów. Oczywiście asymptotycznie zbiega się w populacji cdf, ale co z próbkami skończonymi? Np. Gdybym ci powiedział, że mam 100 obserwacji i zamierzam oszacować cdf jako z dwoma parametrami, nie byłbyś zaniepokojony. Gdyby jednak liczba parametrów wzrosła do 100, nie wydawałoby się to rozsądne.N(μ,σ2)

Podobnie, gdy stosuje się standardową regresję wielokrotną liniową, rozkład składnika błędu jest szacowany jako . Jeśli ktoś decyduje się na przeładowanie reszt, musi zdać sobie sprawę, że teraz jest około parametrów używanych tylko do obsługi rozkładu terminu błędu.N(0,σ2)n

Czy możesz skierować mnie do niektórych źródeł, które jednoznacznie rozwiązują ten problem, lub powiedz mi, dlaczego nie jest to problem, jeśli uważasz, że popełniłem błąd.

James
źródło
Jednym ze sposobów spojrzenia na ten „nieparametryczny” bootstrap jest to, że przekształca ono parametryczne założenie normalności w „wielkość zainteresowania” w pewnej dużej, skończonej populacji (np. Średnia ze Spisu rekordów). W rzeczywistości możesz pokazać, że ta wersja programu ładującego opiera się na szacunkach „maksymalnego prawdopodobieństwa” modelu wielomianowego, z 1 kategorią dla każdego odrębnego „typu” w populacji.
probabilityislogic

Odpowiedzi:

2

nie jestem do końca pewien, czy dobrze rozumiem twoje pytanie ... Zakładam, że interesuje Cię porządek zbieżności?

ponieważ empiryczny plik cdf ma około N parametrów. Oczywiście asymptotycznie zbiega się w populacji cdf, ale co z próbkami skończonymi?

Czy znasz już podstawy teorii bootstrap? Problem polega na tym, że dość szybko staje się dość dziki (matematycznie).

W każdym razie polecam rzucić okiem

van der Vaart „Statystyki asymptotyczne” rozdział 23.

Hall „Rozbudowa Bootstrapa i Edgewortha” (powiedziałbym, że jest długi, ale zwięzły i mniej falujący niż van der Vaart)

dla podstaw.

„Metody ładowania początkowego” firmy Chernick są bardziej skierowane do użytkowników niż matematyków, ale w sekcji „Gdzie ładowanie się nie powiedzie”.

Klasyczny Efron / Tibshirani nie ma pojęcia, dlaczego bootstrap rzeczywiście działa ...

BootstrapBill
źródło
4

N(μ,σ2)

Intuicyjnie, ładowanie początkowe ze skończonych próbek nie docenia ciężkich ogonów podstawowej dystrybucji. To jasne, ponieważ próbki skończone mają zakres skończony, nawet jeśli ich rzeczywisty zakres rozkładu jest nieskończony lub, co gorsza, ma ciężkie ogony. Tak więc zachowanie statystyki ładowania początkowego nigdy nie będzie tak „dzikie” jak pierwotna statystyka. Podobnie jak w przypadku unikania nadmiernego dopasowania z powodu zbyt wielu parametrów w regresji (parametrycznej), moglibyśmy uniknąć nadmiernego dopasowania, stosując rozkład kilku parametrów normalny.

Edytuj odpowiadając na komentarze: Pamiętaj, że nie potrzebujesz bootstrap do oszacowania cdf. Zwykle używasz bootstrap, aby uzyskać rozkład (w najszerszym znaczeniu, w tym kwantyle, momenty, cokolwiek potrzebne) jakiejś statystyki. Więc niekoniecznie masz problem z nadmiernym dopasowaniem (jeśli chodzi o „oszacowanie ze względu na moje skończone dane wygląda zbyt ładnie w porównaniu z tym, co powinienem zobaczyć z prawdziwym rozkładem dzikim”). Ale jak się okazało (w cytowanym artykule i poniższym komentarzu Franka Harrela), uzyskanie tak nadmiernego problemu wiąże się z problemami z parametryczną estymacją tych samych statystyk.

Jak sugeruje twoje pytanie, bootstrapowanie nie stanowi panaceum na problemy z estymacją parametryczną. Nadzieja, że ​​bootstrap pomoże rozwiązać problemy z parametrami poprzez kontrolę całej dystrybucji, jest fałszywa.

Horst Grünbusch
źródło
1
Nadal nie jest jasne, jak działa bootstrap, biorąc pod uwagę, że liczba efektywnych parametrów zaangażowanych w bootstrap jest mniej więcej taka sama jak wielkość próbek. Zgaduję jedno: ostatecznym celem bootstrap nie jest oszacowanie całego rozkładu, ale oszacowanie 1-2 statystyk rozkładu. Dlatego pomimo tego, że empiryczny plik cdf, który jest wbudowany w bootstrap, jest rażąco przepełniony, statystyki szacunkowe 1-2 w jakiś sposób kończą się dobrze. Czy dobrze to zrozumiałem?
James
4
Liczba efektywnych parametrów nie jest taka sama jak wielkość próbki. Wariancja empirycznej funkcji rozkładu skumulowanego jest mniej więcej taka sama jak wariancja dopasowania parametrycznego do rozkładu, gdy rozkład ma 4 nieznane parametry do oszacowania. Jednym z powodów jest to, że empiryczne oszacowania CDF są zmuszane do porządku rosnącego.
Frank Harrell,
Słuszna uwaga. Czy możesz podać referencje?
James
Chciałbym mieć jeden. W przeszłości pokazałem to za pomocą symulacji Monte Carlo.
Frank Harrell,
L2F^FF^(x)F(x)
0

Jednym ze źródeł intuicji może być porównanie szybkości konwergencji dla parametrycznych CDF w porównaniu z ECDF, dla danych id.

n1/2 stopy (nie tylko w jednym punkcie, ale Supremum bezwzględnej różnicy na całym obszarze z cdfs): https: //en.wikipedia. org / wiki / Dvoretzky% E2% 80% 93Kiefer% E2% 80% 93Wolfowitz_inequality http://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdf

n1/2σμ

W pewnym sensie zatem szybkość, z jaką musisz uzyskać więcej próbek, jest taka sama, bez względu na to, czy szacujesz CDF za pomocą empirycznego CDF, czy też szacujesz parametr bezpośrednio za pomocą estymatora typu średnia próbka. Może to pomóc uzasadnić komentarz Franka Harrella, że ​​„Liczba efektywnych parametrów nie jest taka sama jak wielkość próbki”.

Oczywiście to nie jest cała historia. Chociaż stawki się nie różnią, stałe się zmieniają. I nieparametryczny bootstrap ma o wiele więcej niż ECDF - nadal musisz robić rzeczy z ECDF po oszacowaniu.

Civilstat
źródło