Jeśli wszystko, co robisz, to ponowne próbkowanie z rozkładu empirycznego, dlaczego nie po prostu przestudiować rozkład empiryczny? Na przykład zamiast badać zmienność poprzez powtarzanie prób, dlaczego nie po prostu skwantyfikować zmienność z rozkładu empirycznego?
13
Odpowiedzi:
Bootstrapping (lub inne ponowne próbkowanie) to eksperymentalna metoda szacowania rozkładu statystyki.
Jest to bardzo prosta i łatwa metoda (oznacza to po prostu, że obliczysz wiele losowych wariantów przykładowych danych w celu uzyskania, oszacowania pożądanego rozkładu statystyki).
Najprawdopodobniej używasz go, gdy wyrażenie „teoretyczne / analityczne” jest zbyt trudne do uzyskania / obliczenia (lub jak mówi aksakal, że czasami są nieznane).
Przykład 1: Jeśli wykonasz analizę pca i chcesz porównać wyniki z „szacunkami odchylenia wartości własnych”, biorąc pod uwagę hipotezę, że zmienne nie korelują.
Można wielokrotnie mieszać dane i ponownie obliczać wartości własne pca, aby uzyskać rozkład (na podstawie losowych testów z danymi przykładowymi) dla wartości własnych.
Zauważ, że obecne praktyki spoglądają na fabułę piargową i stosują ogólne zasady, aby „zdecydować”, czy określona wartość własna jest znacząca / ważna, czy nie.
Przykład 2: Wykonałeś regresję nieliniową y ~ f (x), podając pewne oszacowanie szeregu parametrów dla funkcji f. Teraz chcesz poznać błąd standardowy dla tych parametrów.
Proste spojrzenie na resztki i algebrę liniową, jak w OLS, nie jest tutaj możliwe. Łatwym sposobem jest jednak wielokrotne obliczenie tej samej regresji przy ponownym mieszaniu resztek / błędów w celu uzyskania pomysłu na zmianę parametrów (biorąc pod uwagę rozkład składnika błędu na podstawie zaobserwowanych reszt).
Napisane przez StackExchangeStrike
źródło
Kluczową rzeczą jest to, że bootstrap tak naprawdę nie polega na ustaleniu cech rozkładu danych , ale raczej na obliczeniu cech estymatora zastosowanego do danych.
Coś w rodzaju funkcji rozkładu empirycznego powie ci dość dobre oszacowanie CDF, z którego pochodzą dane ... ale w izolacji nie mówi w zasadzie nic o tym, jak wiarygodne będą estymatory, które budujemy na podstawie tych danych. To jest pytanie, na które odpowiedziano za pomocą bootstrap.
źródło
Jeśli dokładnie wiesz, jaka jest podstawowa dystrybucja, nie musisz tego studiować. Czasami w naukach przyrodniczych znasz dokładnie rozkład.
JEŻELI znasz typ rozkładu, musisz tylko oszacować jego parametry i przestudiować go w zamierzonym znaczeniu. Na przykład, czasami wiesz, że rozkład podstawowy jest normalny. W niektórych przypadkach nawet wiesz, co to znaczy. Tak więc dla normalnej jedyne, co pozostaje do odkrycia, to odchylenie standardowe. Otrzymujesz odchylenie standardowe próbki i voila, otrzymujesz rozkład do badania.
Jeśli nie wiesz, co to jest dystrybucja, ale pomyśl, że jest to jedna z kilku na liście, możesz spróbować dopasować tę dystrybucję do danych i wybrać tę, która najlepiej pasuje. Następnie studiujesz tę dystrybucję.
WRESZCIE często nie znasz rodzaju dystrybucji, z którą masz do czynienia. I nie masz powodu, by sądzić, że należy on do jednej z 20 dystrybucji, do których R może dopasować twoje dane. Co zamierzasz zrobić? Ok, patrzysz na średnie i standardowe odchylenia, miło. Ale co jeśli jest bardzo przekrzywiony? Co jeśli jego kurtoza jest bardzo duża? i tak dalej. Naprawdę musisz znać wszystkie momenty dystrybucji, aby wiedzieć i studiować. Tak więc w tym przypadku przydatne jest nieparametryczne ładowanie. Nie zakładasz dużo i prostej próbki, a następnie studiujesz jego momenty i inne właściwości.
Chociaż ładowanie nieparametryczne nie jest magicznym narzędziem, ma pewne problemy. Na przykład może być stronniczy. Myślę, że parametryczne ładowanie jest obiektywne
źródło