Ok, to pytanie podtrzymuje mnie w nocy.
Czy procedurę ładowania początkowego można interpretować jako przybliżenie niektórych procedur bayesowskich (z wyjątkiem ładowania początkowego bayesowskiego)?
Bardzo podoba mi się „interpretacja” statystyki bayesowskiej, którą uważam za całkiem spójną i łatwą do zrozumienia. Jednak mam również słabość do procedury ładowania początkowego, która jest tak prosta, ale zapewnia rozsądne wnioski w wielu sytuacjach. Byłbym jednak bardziej zadowolony z bootstrapowania, gdybym wiedział, że bootstrap był w pewnym sensie zbliżony do rozkładu z tyłu.
Znam „Bayesian bootstrap” (Rubin, 1981), ale z mojej perspektywy ta wersja bootstrapu jest tak samo problematyczna jak standardowy bootstrap. Problemem jest naprawdę osobliwe założenie modelu, które przyjmujesz, zarówno podczas klasycznego, jak i bayesowskiego bootstrapu, tzn. Możliwe wartości rozkładu to tylko wartości, które już widziałem. W jaki sposób te dziwne założenia modelu nadal mogą prowadzić do bardzo rozsądnych wniosków, jakie wynikają z procedur ładowania początkowego? Szukałem artykułów, które badały właściwości bootstrapu (np. Weng, 1989), ale nie znalazłem żadnego jasnego wyjaśnienia, z którego jestem zadowolony.
Bibliografia
Donald B. Rubin (1981). Bayesian Bootstrap. Ann. Statystyk. Tom 9, nr 1, 130–134.
Chung-Sing Weng (1989). Na asymptotycznej własności drugiego rzędu środka Bayesian Bootstrap Mean. The Annals of Statistics , t. 17, nr 2, s. 705–710.
Odpowiedzi:
Sekcja 8.4 elementów statystycznego uczenia się autorstwa Hastie, Tibshirani i Friedmana to „Związek między bootstrapem a wnioskowaniem bayesowskim”. To może być właśnie to, czego szukasz. Uważam, że ta książka jest dostępna za darmo na stronie Stanford, chociaż nie mam pod ręką linku.
Edytować:
Oto link do książki, którą autorzy udostępnili bezpłatnie w Internecie:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Na stronie 272 autorzy piszą:
Jeszcze jeden element układanki znajduje się w tym potwierdzonym krzyżowo pytaniu, które wspomina o nierówności Dvoretzky'ego-Kiefera-Wolfowitza, która „pokazuje [...], że funkcja rozkładu empirycznego jest zbieżna równomiernie z prawdziwą funkcją rozkładu wykładniczo szybkiego prawdopodobieństwa”.
Podsumowując, nieparametryczny bootstrap może być postrzegany jako metoda asymptotyczna, która wytwarza „(przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru” i gdzie to przybliżenie staje się lepsze „wykładniczo szybko” wraz ze wzrostem liczby próbek.
źródło
Oto najnowszy artykuł na ten temat:
źródło
Ja również zostałem uwiedziony zarówno przez ładowanie, jak i twierdzenie Bayesa, ale nie mogłem zrozumieć sensu uzasadnienia ładowania, dopóki nie spojrzałem na to z perspektywy Bayesa. Następnie - jak wyjaśnię poniżej - rozkład ładowania początkowego może być postrzegany jako boczny rozkład bayesowski, co sprawia, że uzasadnienie (a?) Ładowania początkowego jest oczywiste, a ponadto miał tę zaletę, że wyjaśnił przyjęte założenia. Więcej szczegółów na temat argumentu poniżej oraz przyjętych założeń można znaleźć na stronie https://arxiv.org/abs/1803.06214 (strony 22–26).
Jako przykład, który jest skonfigurowany w arkuszu kalkulacyjnym pod adresem http://woodm.myweb.port.ac.uk/SL/resample.xlsx (kliknij kartę bootstrap u dołu ekranu), załóżmy, że mamy próbka z 9 pomiarów ze średnią 60. Kiedy użyłem arkusza kalkulacyjnego do wytworzenia 1000 próbek z zamiennikiem z tej próbki i zaokrągliłem średnią do najbliższej liczby parzystej, 82 z tych średnich było 54. Pomysł ładowania początkowego jest taki, że użyj próbki jako populacji „udawanej”, aby zobaczyć, jak zmienne będą prawdopodobnie średnie próbek z 9, więc sugeruje to, że prawdopodobieństwo średniej próby wynosi 6 poniżej średniej populacji (w tym przypadku populacja udawana na podstawie próbka ze średnią 60) wynosi 8,2%. I możemy dojść do podobnego wniosku na temat innych słupków w histogramie ponownego próbkowania.
Wyobraźmy sobie teraz, że prawda jest taka, że średnia rzeczywistej populacji wynosi 66. Jeśli tak jest, to nasze oszacowanie prawdopodobieństwa średniej próby wynoszącej 60 (tj. Dane) wynosi 8,2% (używając wniosków z powyższego akapitu pamiętając 60 oznacza 6 poniżej hipotetycznej średniej populacji 66). Napiszmy to jako
P (Dane podane Średnia = 66) = 8,2%
i to prawdopodobieństwo odpowiada wartości x 54 na rozkładzie ponownego próbkowania. Ten sam rodzaj argumentu stosuje się do każdej możliwej średniej populacji z 0, 2, 4 ... 100. W każdym przypadku prawdopodobieństwo pochodzi z rozkładu ponownego próbkowania - ale ten rozkład jest odzwierciedlony około średniej 60.
Zastosujmy teraz twierdzenie Bayesa. Pomiar, o którym mowa, może przyjmować tylko wartości od 0 do 100, więc zaokrąglenie do najbliższej liczby parzystej możliwości dla średniej populacji wynoszą 0, 2, 4, 6, ... 100. Jeśli założymy, że wcześniejszy rozkład jest płaski, każde z nich ma wcześniejsze prawdopodobieństwo 2% (do 1 dp), a twierdzenie Bayesa mówi nam, że
P (PopMean = 66 danych) = 8,2% * 2% / P (dane)
gdzie
P (Dane) = P (PopMean = 0 podanych danych) * 2% + P (PopMean = 2 podanych danych) * 2% + ... + P (PopMean = 100 podanych danych) * 2%
Możemy teraz anulować 2% i pamiętać, że suma prawdopodobieństw musi wynosić 1, ponieważ prawdopodobieństwa są po prostu tymi z rozkładu ponownego próbkowania. Co nasuwa wniosek, że
P (PopMean = 66) = 8,2%
Pamiętając, że 8,2% to prawdopodobieństwo z rozkładu ponownego próbkowania odpowiadające 54 (zamiast 66), rozkład tylny jest po prostu rozkładem ponownego próbkowania odzwierciedlonym wokół średniej próbki (60). Ponadto, jeśli rozkład ponownego próbkowania jest symetryczny w tym sensie, że asymetrie są losowe - tak jak w tym i wielu innych przypadkach, możemy uznać rozkład ponownego próbkowania za identyczny z tylnym rozkładem prawdopodobieństwa.
Argument ten przyjmuje różne założenia, z których głównym jest to, że wcześniejszy rozkład jest jednolity. Zostały one bardziej szczegółowo opisane w cytowanym powyżej artykule.
źródło