Chcę tylko sprawdzić jakieś uzasadnienie.
Jeśli moja oryginalna próbka ma rozmiar i ładuję ją, mój proces myślowy wygląda następująco:
to szansa na jakąkolwiek obserwację z oryginalnej próbki. Aby mieć pewność, że następne losowanie nie będzie poprzednio próbkowaną obserwacją, ograniczamy wielkość próby do . W ten sposób otrzymujemy ten wzór:
Czy to jest poprawne? Zastanawiam się, dlaczego tak nie jest .
sampling
bootstrap
sample-size
subsampling
Jayant.M
źródło
źródło
Odpowiedzi:
Należy pamiętać, że w każdej pozycji obserwacyjnej (i = 1 , 2 , . . . , n ) możemy wybrać dowolny z n obserwacje, więc są nn możliwe próbki (z zachowaniem kolejności ich losowania) n ! są „tą samą próbką” (tj. zawierają wszystkie n oryginalne obserwacje bez powtórzeń; uwzględnia to wszystkie sposoby zamawiania próbki, od której zaczęliśmy).
Na przykład z trzema obserwacjami, a, b i c, masz 27 możliwych próbek:
Sześć z nich zawiera po jednym z a, b i c.
Więcn ! /nn to prawdopodobieństwo odzyskania oryginalnej próbki.
Na bok - szybkie przybliżenie prawdopodobieństwa:
Weź pod uwagę, że :
więc
Dolna granica jest zwykle podana dla przybliżenia Stirlinga (która ma niski błąd względny dla dużegon ).
[Gosper zasugerował użycien ! ≈( 2 n +13))π---------√nnmi- n co dałoby przybliżenie ( 2 n +13)) π--------√mi- n dla tego prawdopodobieństwa, które działa dość dobrze aż do n = 3 , a nawet do n = 1 w zależności od tego, jak surowe są twoje kryteria.]
(Odpowiedź na komentarz :) Prawdopodobieństwo, że nie uzyska się konkretnej obserwacji w danym ponownym próbkowaniu, wynosi( 1 -1n)n który dla dużych n jest w przybliżeniu mi- 1 .
Aby uzyskać szczegółowe informacje, zobacz
Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?
źródło