Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki o wielkości każda z oryginalnych obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf:
http://en.wikipedia.org/wiki/Empirical_distribution_function
a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z rzędu.
Jeśli mam rację, należy zająć się problemem nadmiernego dopasowania, ponieważ empiryczny plik cdf ma około N parametrów. Oczywiście asymptotycznie zbiega się w populacji cdf, ale co z próbkami skończonymi? Np. Gdybym ci powiedział, że mam 100 obserwacji i zamierzam oszacować cdf jako z dwoma parametrami, nie byłbyś zaniepokojony. Gdyby jednak liczba parametrów wzrosła do 100, nie wydawałoby się to rozsądne.
Podobnie, gdy stosuje się standardową regresję wielokrotną liniową, rozkład składnika błędu jest szacowany jako . Jeśli ktoś decyduje się na przeładowanie reszt, musi zdać sobie sprawę, że teraz jest około parametrów używanych tylko do obsługi rozkładu terminu błędu.
Czy możesz skierować mnie do niektórych źródeł, które jednoznacznie rozwiązują ten problem, lub powiedz mi, dlaczego nie jest to problem, jeśli uważasz, że popełniłem błąd.
Odpowiedzi:
nie jestem do końca pewien, czy dobrze rozumiem twoje pytanie ... Zakładam, że interesuje Cię porządek zbieżności?
Czy znasz już podstawy teorii bootstrap? Problem polega na tym, że dość szybko staje się dość dziki (matematycznie).
W każdym razie polecam rzucić okiem
van der Vaart „Statystyki asymptotyczne” rozdział 23.
Hall „Rozbudowa Bootstrapa i Edgewortha” (powiedziałbym, że jest długi, ale zwięzły i mniej falujący niż van der Vaart)
dla podstaw.
„Metody ładowania początkowego” firmy Chernick są bardziej skierowane do użytkowników niż matematyków, ale w sekcji „Gdzie ładowanie się nie powiedzie”.
Klasyczny Efron / Tibshirani nie ma pojęcia, dlaczego bootstrap rzeczywiście działa ...
źródło
Intuicyjnie, ładowanie początkowe ze skończonych próbek nie docenia ciężkich ogonów podstawowej dystrybucji. To jasne, ponieważ próbki skończone mają zakres skończony, nawet jeśli ich rzeczywisty zakres rozkładu jest nieskończony lub, co gorsza, ma ciężkie ogony. Tak więc zachowanie statystyki ładowania początkowego nigdy nie będzie tak „dzikie” jak pierwotna statystyka. Podobnie jak w przypadku unikania nadmiernego dopasowania z powodu zbyt wielu parametrów w regresji (parametrycznej), moglibyśmy uniknąć nadmiernego dopasowania, stosując rozkład kilku parametrów normalny.
Edytuj odpowiadając na komentarze: Pamiętaj, że nie potrzebujesz bootstrap do oszacowania cdf. Zwykle używasz bootstrap, aby uzyskać rozkład (w najszerszym znaczeniu, w tym kwantyle, momenty, cokolwiek potrzebne) jakiejś statystyki. Więc niekoniecznie masz problem z nadmiernym dopasowaniem (jeśli chodzi o „oszacowanie ze względu na moje skończone dane wygląda zbyt ładnie w porównaniu z tym, co powinienem zobaczyć z prawdziwym rozkładem dzikim”). Ale jak się okazało (w cytowanym artykule i poniższym komentarzu Franka Harrela), uzyskanie tak nadmiernego problemu wiąże się z problemami z parametryczną estymacją tych samych statystyk.
Jak sugeruje twoje pytanie, bootstrapowanie nie stanowi panaceum na problemy z estymacją parametryczną. Nadzieja, że bootstrap pomoże rozwiązać problemy z parametrami poprzez kontrolę całej dystrybucji, jest fałszywa.
źródło
Jednym ze źródeł intuicji może być porównanie szybkości konwergencji dla parametrycznych CDF w porównaniu z ECDF, dla danych id.
W pewnym sensie zatem szybkość, z jaką musisz uzyskać więcej próbek, jest taka sama, bez względu na to, czy szacujesz CDF za pomocą empirycznego CDF, czy też szacujesz parametr bezpośrednio za pomocą estymatora typu średnia próbka. Może to pomóc uzasadnić komentarz Franka Harrella, że „Liczba efektywnych parametrów nie jest taka sama jak wielkość próbki”.
Oczywiście to nie jest cała historia. Chociaż stawki się nie różnią, stałe się zmieniają. I nieparametryczny bootstrap ma o wiele więcej niż ECDF - nadal musisz robić rzeczy z ECDF po oszacowaniu.
źródło