Szansa, że ​​próbka bootstrap jest dokładnie taka sama jak oryginalna próbka

9

Chcę tylko sprawdzić jakieś uzasadnienie.

Jeśli moja oryginalna próbka ma rozmiar i ładuję ją, mój proces myślowy wygląda następująco:n

1n to szansa na jakąkolwiek obserwację z oryginalnej próbki. Aby mieć pewność, że następne losowanie nie będzie poprzednio próbkowaną obserwacją, ograniczamy wielkość próby do . W ten sposób otrzymujemy ten wzór:n-1

1n1n-11n-2)1n-(n-1)=1n!.

Czy to jest poprawne? Zastanawiam się, dlaczego tak nie jest .(1n)n

Jayant.M
źródło
1
Nie jestem pewien, czy cię śledzę. Dlaczego chcesz „upewnić się, że następne losowanie nie jest poprzednią próbką”? W przypadku ładowania początkowego chodzi o próbkowanie z wymianą. Oznacza to, że zrobić, żeby to było możliwe, że następne losowanie jest taki sam jak jeden już wyciągnąć.
gung - Przywróć Monikę
ale czy to nie znaczy, że próbka startująca nie jest taka sama jak próbka oryginalna?
Jayant.M
Nie podążam za tobą Niekoniecznie chcesz, aby próbka była identyczna z twoją próbką, po prostu chcesz traktować próbkę jako model populacji.
gung - Przywróć Monikę
1
Moje pytanie brzmi, jaka jest szansa, że ​​próbka ładowania początkowego jest taka sama jak próbka oryginalna. Interesuje mnie to, że bootstrap jest identyczny z próbką
Jayant.M
Przepraszam, jeśli moje pytanie nie było jasne!
Jayant.M

Odpowiedzi:

17

Należy pamiętać, że w każdej pozycji obserwacyjnej (ja=1,2),...,n) możemy wybrać dowolny z n obserwacje, więc są nn możliwe próbki (z zachowaniem kolejności ich losowania) n! są „tą samą próbką” (tj. zawierają wszystkie noryginalne obserwacje bez powtórzeń; uwzględnia to wszystkie sposoby zamawiania próbki, od której zaczęliśmy).

Na przykład z trzema obserwacjami, a, b i c, masz 27 możliwych próbek:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

Sześć z nich zawiera po jednym z a, b i c.

Więc n!/nn to prawdopodobieństwo odzyskania oryginalnej próbki.

Na bok - szybkie przybliżenie prawdopodobieństwa:

Weź pod uwagę, że :

2)π nn+12)mi-nn!mi nn+12)mi-n

więc

2)π n12)mi-nn!/nnmi n12)mi-n

Dolna granica jest zwykle podana dla przybliżenia Stirlinga (która ma niski błąd względny dla dużego n).

[Gosper zasugerował użycien!(2)n+13))πnnmi-n co dałoby przybliżenie (2)n+13))πmi-n dla tego prawdopodobieństwa, które działa dość dobrze aż do n=3), a nawet do n=1 w zależności od tego, jak surowe są twoje kryteria.]


(Odpowiedź na komentarz :) Prawdopodobieństwo, że nie uzyska się konkretnej obserwacji w danym ponownym próbkowaniu, wynosi (1-1n)n który dla dużych n jest w przybliżeniu mi-1.

Aby uzyskać szczegółowe informacje, zobacz
Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?

Glen_b - Przywróć Monikę
źródło
Dziękuję Ci! jako ciekawostkę, jaka jest szansa, że ​​nie uzyska konkretnego wpisu w próbie? na przykład z rozkłademza,b,do dałeś, istnieje 8/27 szansa, że ​​nie dostaniesz próbki z za
Jayant.M
1
Jest to już omówione w innych odpowiedziach na stronie, ale dodałem je powyżej (krótko).
Glen_b
1
Jest to prawdopodobieństwo uzyskania próbki, która jest permutacją oryginalnej próbki. Zamiast tego istnieje prawdopodobieństwo uzyskania dokładnie takiej samej sekwencji jak w oryginalnej próbce (a więc tych samych elementów w tej samej kolejności)(1n)n. Dobrze?
DeltaIV
1
@deltaiv tak, tylko jeden z n!ustalenia są w oryginalnej kolejności.
Glen_b
1
Czy przybliżenie Gospera nie działa dobrze nawet do n=1, nie tylko do n=3)? Myślę, że 0,499 (dlan=2)) jest całkiem dobrym przybliżeniem do 0,5 i 0,996 (dla n=1) jest również bardzo zbliżona do 1,0.
Karl Ove Hufthammer