Wpis w Wikipedii dotyczący ładowania początkowego jest w rzeczywistości bardzo dobry:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Najczęstszym powodem zastosowania ładowania początkowego jest nieznana forma podstawowej dystrybucji, z której pobierana jest próbka. Tradycyjnie statystycy zakładają rozkład normalny (z bardzo dobrych powodów związanych z centralnym twierdzeniem o granicy), ale statystyki (takie jak odchylenie standardowe, przedziały ufności, obliczenia mocy itp.) Oszacowane za pomocą teorii rozkładu normalnego są ściśle obowiązujące tylko wtedy, gdy podstawowy rozkład populacji jest normalna.
Poprzez wielokrotne ponowne próbkowanie samej próbki, ładowanie początkowe umożliwia oszacowania, które są niezależne od dystrybucji. Tradycyjnie każde „ponowne próbkowanie” oryginalnej próbki losowo wybiera tę samą liczbę obserwacji, co w oryginalnej próbce. Są one jednak wybierane z zamiennikiem. Jeśli próbka ma N obserwacji, każda próbka ponownego ładowania początkowego będzie miała N obserwacji, z wieloma powtórzeniami oryginalnej próbki i wieloma wykluczonymi.
Parametr będący przedmiotem zainteresowania (np. Iloraz szans itp.) Można następnie oszacować na podstawie każdej próbki startowej. Powtarzając bootstrap, powiedzmy 1000 razy, pozwala oszacować „medianę” i 95% przedział ufności w statystyce (np. Iloraz szans), wybierając 2,5, 50 i 97,5 percentyl.
Wiki na temat ładowania początkowego zawiera następujący opis:
Podam więcej szczegółów, jeśli możesz wyjaśnić, której części powyższego opisu nie rozumiesz.
źródło
Lubię myśleć o tym w następujący sposób: Jeśli uzyskasz losowy zestaw danych z populacji, przypuszczalnie ta próbka będzie miała cechy, które w przybliżeniu pasują do populacji źródłowej. Jeśli więc chcesz uzyskać przedziały ufności dla określonej cechy rozkładu, na przykład jego skośności, możesz potraktować próbkę jako pseudopopulację, z której można uzyskać wiele zestawów losowych pseudopróbek, obliczając wartość interesującej cechy w każdym. Założenie, że pierwotna próbka w przybliżeniu odpowiada populacji, oznacza również, że można uzyskać pseudopróbki, pobierając próbki z pseudopopulacji „z zamiennikiem” (np. Próbkuje się wartość, zapisuje ją, a następnie odkłada; w ten sposób każda wartość ma szansę na wielokrotne obserwowanie).
źródło
Bootstrap jest zasadniczo symulacją powtarzania eksperymentu; powiedzmy, że masz pudełko z kulkami i chcesz uzyskać średnią wielkość piłki - więc losujesz niektóre z nich, mierzysz i mierzysz. Teraz chcesz to powtórzyć, aby uzyskać rozkład, na przykład, aby uzyskać standardowe odchylenie - ale odkryłeś, że ktoś ukradł pudełko.
Teraz możesz użyć tego, co masz - tej jednej serii pomiarów. Chodzi o to, aby umieścić kulki w nowym pudełku i przeprowadzić symulację oryginalnego eksperymentu, rysując taką samą liczbę kulek z zamiennikiem - obie mają taką samą wielkość próbki i pewną zmienność. Teraz można to powtórzyć wiele razy, aby uzyskać szereg środków, które można w końcu wykorzystać do przybliżenia średniego rozkładu.
źródło
źródło