Czy można interpretować bootstrap z perspektywy Bayesa?

43

Ok, to pytanie podtrzymuje mnie w nocy.

Czy procedurę ładowania początkowego można interpretować jako przybliżenie niektórych procedur bayesowskich (z wyjątkiem ładowania początkowego bayesowskiego)?

Bardzo podoba mi się „interpretacja” statystyki bayesowskiej, którą uważam za całkiem spójną i łatwą do zrozumienia. Jednak mam również słabość do procedury ładowania początkowego, która jest tak prosta, ale zapewnia rozsądne wnioski w wielu sytuacjach. Byłbym jednak bardziej zadowolony z bootstrapowania, gdybym wiedział, że bootstrap był w pewnym sensie zbliżony do rozkładu z tyłu.

Znam „Bayesian bootstrap” (Rubin, 1981), ale z mojej perspektywy ta wersja bootstrapu jest tak samo problematyczna jak standardowy bootstrap. Problemem jest naprawdę osobliwe założenie modelu, które przyjmujesz, zarówno podczas klasycznego, jak i bayesowskiego bootstrapu, tzn. Możliwe wartości rozkładu to tylko wartości, które już widziałem. W jaki sposób te dziwne założenia modelu nadal mogą prowadzić do bardzo rozsądnych wniosków, jakie wynikają z procedur ładowania początkowego? Szukałem artykułów, które badały właściwości bootstrapu (np. Weng, 1989), ale nie znalazłem żadnego jasnego wyjaśnienia, z którego jestem zadowolony.

Bibliografia

Donald B. Rubin (1981). Bayesian Bootstrap. Ann. Statystyk. Tom 9, nr 1, 130–134.

Chung-Sing Weng (1989). Na asymptotycznej własności drugiego rzędu środka Bayesian Bootstrap Mean. The Annals of Statistics , t. 17, nr 2, s. 705–710.

Rasmus Bååth
źródło
3
Właśnie napisałem wpis na blogu na temat „bootstrap jako model bayesowski” ( sumsar.net/blog/2015/04/… ), który omawia bayesowskie „wyjaśnienia” bootstrapu. Nie odpowiada bezpośrednio na powyższe pytania, ale mam nadzieję, że wyjaśni to, czym jest bootstrap i co robi.
Rasmus Bååth,
Przeczytaj Muliere i secchi (1996) bayesowskie nieparametryczne techniki wnioskowania predykcyjnego i techniki ładowania początkowego. Podaj dokładnie swój punkt!

Odpowiedzi:

30

Sekcja 8.4 elementów statystycznego uczenia się autorstwa Hastie, Tibshirani i Friedmana to „Związek między bootstrapem a wnioskowaniem bayesowskim”. To może być właśnie to, czego szukasz. Uważam, że ta książka jest dostępna za darmo na stronie Stanford, chociaż nie mam pod ręką linku.

Edytować:

Oto link do książki, którą autorzy udostępnili bezpłatnie w Internecie:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Na stronie 272 autorzy piszą:

W tym sensie rozkład ładowania początkowego reprezentuje (przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru. Ale ten rozkład ładowania początkowego jest uzyskiwany bezboleśnie - bez formalnego określania wcześniejszego i bez konieczności pobierania próbki z rozkładu tylnego. Dlatego możemy myśleć o rozmieszczeniu paska ładunkowego jako o „Bayesie” „biednego mężczyzny”. Zakłócając dane, bootstrap przybliża efekt bayesowski zakłócenia parametrów i jest zwykle znacznie prostszy do przeprowadzenia.

Jeszcze jeden element układanki znajduje się w tym potwierdzonym krzyżowo pytaniu, które wspomina o nierówności Dvoretzky'ego-Kiefera-Wolfowitza, która „pokazuje [...], że funkcja rozkładu empirycznego jest zbieżna równomiernie z prawdziwą funkcją rozkładu wykładniczo szybkiego prawdopodobieństwa”.

Podsumowując, nieparametryczny bootstrap może być postrzegany jako metoda asymptotyczna, która wytwarza „(przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru” i gdzie to przybliżenie staje się lepsze „wykładniczo szybko” wraz ze wzrostem liczby próbek.

EdM
źródło
3
Chociaż zawsze doceniamy odniesienia do odpowiednich materiałów, odpowiedź ta zostałaby znacznie ulepszona, gdyby uwzględniono krótkie streszczenie tej sekcji.
kardynał
1
Ostatni bit z tej sekcji może być bardziej przydatny: Pasek startowy jest przybliżonym nieparametrycznym, nieinformacyjnym rozkładem bocznym dla szacowanego parametru. Cały rozdział jest wart przeczytania.
Fraijo
2
Dzięki za link! Jeśli przeczytam Hastie i in. pokazują, że pokazują zgodność między nieparametrycznym boostrapem a bayesowskim bootstrapem i twierdzą, że ten pierwszy jest zbliżony do drugiego. Nie piszą wiele o tym, dlaczego bootstrap (bayesowski czy nie) powoduje przede wszystkim sensowne wnioski. Miałem nadzieję, że coś w stylu: „W [pewnych ogólnych okolicznościach] bootstrap przybliża prawdziwy rozkład tylny parametru / statystyki z błędem, który jest [czymś] i który zależy od [tego i tamtego]”.
Rasmus Bååth
Dziękuję za pomoc w poprawieniu mojej odpowiedzi. Najwyraźniejszym wyjaśnieniem, dlaczego słyszę, dlaczego działa bootstrap, jest to, że właśnie pobrana próbka jest najlepszą reprezentacją ogólnej populacji. Ale nie jestem wystarczająco probabilistą, aby sformułować to bardziej formalnie.
EdM
O ile pamiętam, robią ten argument, ładują NN i przechodzą do śmietanki przez całkowicie Bayesowskie NN Radforda Neala. Myślę, że to coś mówi, nie wiem co.
facet
3

Oto najnowszy artykuł na ten temat:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}
Frank Harrell
źródło
2
Moją interpretacją tego artykułu jest to, że opisuje metodę ładowania początkowego do obliczania rozkładu bocznego określonego modelu, czyli metodę, którą można zastosować zamiast np. Próbkowania metropolii. Nie widzę, żeby artykuł omawiał związek między nieparametrycznymi założeniami modelu ładowania początkowego a estymacją Bayesa ...
Rasmus Bååth
1
Twierdzi, że to robi. Nie przeczytałem szczegółowo artykułu.
Frank Harrell,
5
Frank: Nie wyciągnąłem zbyt wiele z czytania tego artykułu Efrona - to, co robi, może być postrzegane jako próbnik o znaczeniu sekwencyjnym, który zaczyna się od prawdopodobieństwa i próbuje dotrzeć do tylnej części ciała (co często zadziała). Celem Rubina w artykule z 1981 r. Było zakwestionowanie stosowności bootstrapu, ale najwyraźniej Efron doszedł do przeciwnego stanowiska. David Draper poprawił go tego lata na swoim kursie JSM i stwierdził, że jest zły, chyba że zobaczysz większość możliwości w próbce. Ale patrz tutaj normaldeviate.wordpress.com/2013/06/12/…
phaneron
1

Ja również zostałem uwiedziony zarówno przez ładowanie, jak i twierdzenie Bayesa, ale nie mogłem zrozumieć sensu uzasadnienia ładowania, dopóki nie spojrzałem na to z perspektywy Bayesa. Następnie - jak wyjaśnię poniżej - rozkład ładowania początkowego może być postrzegany jako boczny rozkład bayesowski, co sprawia, że ​​uzasadnienie (a?) Ładowania początkowego jest oczywiste, a ponadto miał tę zaletę, że wyjaśnił przyjęte założenia. Więcej szczegółów na temat argumentu poniżej oraz przyjętych założeń można znaleźć na stronie https://arxiv.org/abs/1803.06214 (strony 22–26).

Jako przykład, który jest skonfigurowany w arkuszu kalkulacyjnym pod adresem http://woodm.myweb.port.ac.uk/SL/resample.xlsx (kliknij kartę bootstrap u dołu ekranu), załóżmy, że mamy próbka z 9 pomiarów ze średnią 60. Kiedy użyłem arkusza kalkulacyjnego do wytworzenia 1000 próbek z zamiennikiem z tej próbki i zaokrągliłem średnią do najbliższej liczby parzystej, 82 z tych średnich było 54. Pomysł ładowania początkowego jest taki, że użyj próbki jako populacji „udawanej”, aby zobaczyć, jak zmienne będą prawdopodobnie średnie próbek z 9, więc sugeruje to, że prawdopodobieństwo średniej próby wynosi 6 poniżej średniej populacji (w tym przypadku populacja udawana na podstawie próbka ze średnią 60) wynosi 8,2%. I możemy dojść do podobnego wniosku na temat innych słupków w histogramie ponownego próbkowania.

Wyobraźmy sobie teraz, że prawda jest taka, że ​​średnia rzeczywistej populacji wynosi 66. Jeśli tak jest, to nasze oszacowanie prawdopodobieństwa średniej próby wynoszącej 60 (tj. Dane) wynosi 8,2% (używając wniosków z powyższego akapitu pamiętając 60 oznacza 6 poniżej hipotetycznej średniej populacji 66). Napiszmy to jako

P (Dane podane Średnia = 66) = 8,2%

i to prawdopodobieństwo odpowiada wartości x 54 na rozkładzie ponownego próbkowania. Ten sam rodzaj argumentu stosuje się do każdej możliwej średniej populacji z 0, 2, 4 ... 100. W każdym przypadku prawdopodobieństwo pochodzi z rozkładu ponownego próbkowania - ale ten rozkład jest odzwierciedlony około średniej 60.

Zastosujmy teraz twierdzenie Bayesa. Pomiar, o którym mowa, może przyjmować tylko wartości od 0 do 100, więc zaokrąglenie do najbliższej liczby parzystej możliwości dla średniej populacji wynoszą 0, 2, 4, 6, ... 100. Jeśli założymy, że wcześniejszy rozkład jest płaski, każde z nich ma wcześniejsze prawdopodobieństwo 2% (do 1 dp), a twierdzenie Bayesa mówi nam, że

P (PopMean = 66 danych) = 8,2% * 2% / P (dane)

gdzie

P (Dane) = P (PopMean = 0 podanych danych) * 2% + P (PopMean = 2 podanych danych) * 2% + ... + P (PopMean = 100 podanych danych) * 2%

Możemy teraz anulować 2% i pamiętać, że suma prawdopodobieństw musi wynosić 1, ponieważ prawdopodobieństwa są po prostu tymi z rozkładu ponownego próbkowania. Co nasuwa wniosek, że

P (PopMean = 66) = 8,2%

Pamiętając, że 8,2% to prawdopodobieństwo z rozkładu ponownego próbkowania odpowiadające 54 (zamiast 66), rozkład tylny jest po prostu rozkładem ponownego próbkowania odzwierciedlonym wokół średniej próbki (60). Ponadto, jeśli rozkład ponownego próbkowania jest symetryczny w tym sensie, że asymetrie są losowe - tak jak w tym i wielu innych przypadkach, możemy uznać rozkład ponownego próbkowania za identyczny z tylnym rozkładem prawdopodobieństwa.

Argument ten przyjmuje różne założenia, z których głównym jest to, że wcześniejszy rozkład jest jednolity. Zostały one bardziej szczegółowo opisane w cytowanym powyżej artykule.

Michael Wood
źródło
Istnieje coś takiego jak bayesowski bootstrap, który wprowadził Rubin. Ale nie sądzę, że o to ci chodzi. Zwykły bootstrap wprowadzony przez Efrona jest tak naprawdę częstym pomysłem.
Michael Chernick