Metoda bootstrap bardzo się rozpowszechniła w ostatnich latach, ja też jej często używam, zwłaszcza że rozumowanie jest dość intuicyjne.
Ale tego nie rozumiem. Dlaczego Efron postanowił wykonać ponowne próbkowanie z zamianą zamiast zwykłego podpróbkowania przez losowe włączanie lub wyłączanie pojedynczych obserwacji?
Myślę, że losowe podpróbkowanie ma jedną bardzo dobrą jakość, która idealnie reprezentuje rzeczywistą sytuację życiową, w której obserwacje, które obserwujemy w naszym badaniu, są podzbiorem hipotetycznej populacji. Nie widzę korzyści z posiadania zwielokrotnionych obserwacji podczas ponownego próbkowania. W rzeczywistym kontekście żadna obserwacja nie jest podobna do innej, szczególnie w złożonych sytuacjach wielowymiarowych.
bootstrap
resampling
subsampling
Bakaburg
źródło
źródło
Odpowiedzi:
Jednym ze sposobów zrozumienia tego wyboru jest wyobrażenie sobie, że próbka jest najlepszą reprezentacją populacji podstawowej. Być może nie masz już całej populacji do pobierania próbek, ale masz tę konkretną reprezentację populacji. Naprawdę losowe ponowne próbkowanie z tej reprezentacji populacji oznacza, że musisz próbkować z wymianą, w przeciwnym razie późniejsze próbkowanie będzie zależeć od wyników początkowego próbkowania. Obecność powtarzającego się przypadku w konkretnej próbce ładowania początkowego reprezentuje członków podstawowej populacji, którzy mają cechy zbliżone do cech tego konkretnego powtarzanego przypadku. Jak sugerujesz, można również zastosować podejście typu „zostaw jeden-jeden” lub „zostaw kilka-jeden”, ale jest to metoda krzyżowej weryfikacji zamiast ładowania początkowego.
Myślę, że właściwie to po prostu umieszcza w innych słowach komentarz z @kjetil_b_halvorsen
źródło