Dlaczego ładowanie jest przydatne?

13

Jeśli wszystko, co robisz, to ponowne próbkowanie z rozkładu empirycznego, dlaczego nie po prostu przestudiować rozkład empiryczny? Na przykład zamiast badać zmienność poprzez powtarzanie prób, dlaczego nie po prostu skwantyfikować zmienność z rozkładu empirycznego?

ztyh
źródło
6
(W tym sensie) rozkład bootstrap reprezentuje (przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru. Ale ten rozkład bootstrap jest uzyskiwany bezboleśnie - bez konieczności formalnego określania wcześniejszego i bez konieczności próbkowania z rozkładu tylnego. Stąd możemy pomyśleć o dystrybucji bootstrap jako o „biednym” Bayesie z tyłu. ”Hastie i in. Elementy uczenia statystycznego ".
Sek
8
Jak ocenilibyśmy niepewność naszych szacunków na podstawie rozkładu empirycznego?
usεr11852
2
„W łagodnych warunkach regularności pasek startowy przybliża rozkład estymatora lub statystyki testowej co najmniej tak samo dokładny jak przybliżenie uzyskane z teorii asymptotycznej pierwszego rzędu”. unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman
10
Kłócisz się, nie próbując zrozumieć. Uwierzcie mi, nie zdaliście sobie sprawy, że bootstrap jest bezwartościowy w porównaniu z wieloma tysiącami statystyk w ciągu czterech lub kilkudziesięciu lat. Cytat nie przeczytałeś uważnie. Myślę, że nie zrozumiałeś kluczowej roli przypadkowości w statystykach. Stwierdzenia takie jak „Po co zawracać sobie głowę !!” w odniesieniu do „uzyskanie rozkładu są… co najmniej niezwykłe. Jeśli uważasz, że nie jest ważne, aby zrozumieć rozkład swoich oszacowań, możesz rozważyć, dlaczego istnieje pole statystyki w ogóle i ponownie pomyśl o tymT(X)
jbowman
4
@ztyh Mówisz „jeśli zamapujesz każdą próbkę na T ( X ) , otrzymasz rozkład T ( X ) ”. Być może powinieneś pomyśleć o tym, jak zamapowałbyś pojedynczy punkt X i na T ( X ) = ˉ X ? Lub dowolna funkcja T ( X 1 , X 2 , X n ) w tym zakresie. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

Odpowiedzi:

18

Bootstrapping (lub inne ponowne próbkowanie) to eksperymentalna metoda szacowania rozkładu statystyki.

Jest to bardzo prosta i łatwa metoda (oznacza to po prostu, że obliczysz wiele losowych wariantów przykładowych danych w celu uzyskania, oszacowania pożądanego rozkładu statystyki).

Najprawdopodobniej używasz go, gdy wyrażenie „teoretyczne / analityczne” jest zbyt trudne do uzyskania / obliczenia (lub jak mówi aksakal, że czasami są nieznane).

  • Przykład 1: Jeśli wykonasz analizę pca i chcesz porównać wyniki z „szacunkami odchylenia wartości własnych”, biorąc pod uwagę hipotezę, że zmienne nie korelują.

    Można wielokrotnie mieszać dane i ponownie obliczać wartości własne pca, aby uzyskać rozkład (na podstawie losowych testów z danymi przykładowymi) dla wartości własnych.

    Zauważ, że obecne praktyki spoglądają na fabułę piargową i stosują ogólne zasady, aby „zdecydować”, czy określona wartość własna jest znacząca / ważna, czy nie.

  • Przykład 2: Wykonałeś regresję nieliniową y ~ f (x), podając pewne oszacowanie szeregu parametrów dla funkcji f. Teraz chcesz poznać błąd standardowy dla tych parametrów.

    Proste spojrzenie na resztki i algebrę liniową, jak w OLS, nie jest tutaj możliwe. Łatwym sposobem jest jednak wielokrotne obliczenie tej samej regresji przy ponownym mieszaniu resztek / błędów w celu uzyskania pomysłu na zmianę parametrów (biorąc pod uwagę rozkład składnika błędu na podstawie zaobserwowanych reszt).


Napisane przez StackExchangeStrike

Sextus Empiricus
źródło
2
Myślę, że twój przykład nie jest bootstrapem. Po prostu pobiera próbki ze znanego rozkładu zerowego. Bootstrap to miejsce, w którym masz jedną próbkę i ponownie próbkujesz z tej próbki.
ztyh
3
W swoim pytaniu wyobrażasz sobie obliczenie wariancji próbki, która jest rzeczywiście prosta i nie wymaga ładowania początkowego. W moim przykładzie mówię o sytuacji, w której mamy wartość wyprowadzoną z próbki. Wtedy nie możemy już po prostu obliczyć wariancji, nadal chcemy wiedzieć, jak ona się zmienia. Wielokrotnie szyfrując dane i ponownie obliczając wartości własne pca, można uzyskać takie (losowe) dane rozkładu, które następują po rozkładzie próbki. Jeśli się nie mylę, nazywa się to ładowaniem.
Sextus Empiricus
Ok, rozumiem, gdzie nie rozumiałem rzeczy. Twój przykład ma sens. Dzięki.
ztyh
8

Kluczową rzeczą jest to, że bootstrap tak naprawdę nie polega na ustaleniu cech rozkładu danych , ale raczej na obliczeniu cech estymatora zastosowanego do danych.

Coś w rodzaju funkcji rozkładu empirycznego powie ci dość dobre oszacowanie CDF, z którego pochodzą dane ... ale w izolacji nie mówi w zasadzie nic o tym, jak wiarygodne będą estymatory, które budujemy na podstawie tych danych. To jest pytanie, na które odpowiedziano za pomocą bootstrap.

Cliff AB
źródło
1
Użycie (nieparametrycznego) bootstrapu do znalezienia „rozkładu danych” byłoby śmiechem: po prostu wymyśla funkcję rozkładu empirycznego, czyli dokładnie taki zestaw danych, z którego analityk zaczął. Przypomina mi algebrę college'u, gdy „rozwiązałem X” i znalazłem „X = X”.
AdamO
3

Jeśli dokładnie wiesz, jaka jest podstawowa dystrybucja, nie musisz tego studiować. Czasami w naukach przyrodniczych znasz dokładnie rozkład.

JEŻELI znasz typ rozkładu, musisz tylko oszacować jego parametry i przestudiować go w zamierzonym znaczeniu. Na przykład, czasami wiesz, że rozkład podstawowy jest normalny. W niektórych przypadkach nawet wiesz, co to znaczy. Tak więc dla normalnej jedyne, co pozostaje do odkrycia, to odchylenie standardowe. Otrzymujesz odchylenie standardowe próbki i voila, otrzymujesz rozkład do badania.

Jeśli nie wiesz, co to jest dystrybucja, ale pomyśl, że jest to jedna z kilku na liście, możesz spróbować dopasować tę dystrybucję do danych i wybrać tę, która najlepiej pasuje. Następnie studiujesz tę dystrybucję.

WRESZCIE często nie znasz rodzaju dystrybucji, z którą masz do czynienia. I nie masz powodu, by sądzić, że należy on do jednej z 20 dystrybucji, do których R może dopasować twoje dane. Co zamierzasz zrobić? Ok, patrzysz na średnie i standardowe odchylenia, miło. Ale co jeśli jest bardzo przekrzywiony? Co jeśli jego kurtoza jest bardzo duża? i tak dalej. Naprawdę musisz znać wszystkie momenty dystrybucji, aby wiedzieć i studiować. Tak więc w tym przypadku przydatne jest nieparametryczne ładowanie. Nie zakładasz dużo i prostej próbki, a następnie studiujesz jego momenty i inne właściwości.

Chociaż ładowanie nieparametryczne nie jest magicznym narzędziem, ma pewne problemy. Na przykład może być stronniczy. Myślę, że parametryczne ładowanie jest obiektywne

Aksakal
źródło
1
Myślę, że nawet jeśli nie znasz prawdziwego rozkładu, wiele momentów jest łatwych do obliczenia. Myślę więc, że problemem nie jest nieznajomość rodzaju dystrybucji, z którą masz do czynienia. Raczej chodzi o to, jaką statystykę próbujesz studiować. Niektóre statystyki mogą być trudne do obliczenia i dopiero wtedy przydatny jest bootstrap.
ztyh
Podobnie jak w komentarzu do pytania do usεr11852, tak naprawdę mam wątpliwości co do korzyści w odniesieniu do obliczalności statystyk również ...
ztyh
ln(x3+x)
1
xzf(x,z)x,z
1
fxzf(x,z)