Szansa, że próbka bootstrap jest dokładnie taka sama jak oryginalna próbka

Chcę tylko sprawdzić jakieś uzasadnienie.

Jeśli moja oryginalna próbka ma rozmiar i ładuję ją, mój proces myślowy wygląda następująco: $n$

$\frac{1}{n}$ to szansa na jakąkolwiek obserwację z oryginalnej próbki. Aby mieć pewność, że następne losowanie nie będzie poprzednio próbkowaną obserwacją, ograniczamy wielkość próby do . W ten sposób otrzymujemy ten wzór: $n-1$

\frac{1}{n} \cdot \frac{1}{n - 1} \cdot \frac{1}{n - 2)} \dots \frac{1}{n - (n - 1)} = \frac{1}{n!} .

$\frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}.$

Czy to jest poprawne? Zastanawiam się, dlaczego tak nie jest . $(\frac{1}{n})^n$

sampling bootstrap sample-size subsampling Jayant.M
źródło

Nie jestem pewien, czy cię śledzę. Dlaczego chcesz „upewnić się, że następne losowanie nie jest poprzednią próbką”? W przypadku ładowania początkowego chodzi o próbkowanie z wymianą. Oznacza to, że zrobić, żeby to było możliwe, że następne losowanie jest taki sam jak jeden już wyciągnąć.

gung - Przywróć Monikę

ale czy to nie znaczy, że próbka startująca nie jest taka sama jak próbka oryginalna?

Jayant.M

Nie podążam za tobą Niekoniecznie chcesz, aby próbka była identyczna z twoją próbką, po prostu chcesz traktować próbkę jako model populacji.

gung - Przywróć Monikę

Moje pytanie brzmi, jaka jest szansa, że próbka ładowania początkowego jest taka sama jak próbka oryginalna. Interesuje mnie to, że bootstrap jest identyczny z próbką

Jayant.M

Przepraszam, jeśli moje pytanie nie było jasne!

Jayant.M

Należy pamiętać, że w każdej pozycji obserwacyjnej ( $i=1, 2, ..., n$ ) możemy wybrać dowolny z $n$ obserwacje, więc są $n^n$ możliwe próbki (z zachowaniem kolejności ich losowania) $n!$ są „tą samą próbką” (tj. zawierają wszystkie $n$ oryginalne obserwacje bez powtórzeń; uwzględnia to wszystkie sposoby zamawiania próbki, od której zaczęliśmy).

Na przykład z trzema obserwacjami, a, b i c, masz 27 możliwych próbek:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc

Sześć z nich zawiera po jednym z a, b i c.

Więc $n!/n^n$ to prawdopodobieństwo odzyskania oryginalnej próbki.

Na bok - szybkie przybliżenie prawdopodobieństwa:

Weź pod uwagę, że :

\sqrt{2) π} n^{n + \frac{1}{2)}} {mi}^{- n} \leq n! \leq mi n^{n + \frac{1}{2)}} {mi}^{- n}

${\sqrt {2\pi }}\ n^{n+{\frac {1}{2}}}e^{-n}\leq n!\leq e\ n^{n+{\frac {1}{2}}}e^{-n}$

więc

\sqrt{2) π} n^{\frac{1}{2)}} {mi}^{- n} \leq n! / n^{n} \leq mi n^{\frac{1}{2)}} {mi}^{- n}

${\sqrt {2\pi }}\ n^{{\frac {1}{2}}}e^{-n}\leq n!/n^n \leq e\ n^{{\frac {1}{2}}}e^{-n}$

Dolna granica jest zwykle podana dla przybliżenia Stirlinga (która ma niski błąd względny dla dużego $n$ ).

[Gosper zasugerował użycie $n! \approx \sqrt{(2n+\frac13)\,\pi}n^ne^{-n}$ co dałoby przybliżenie $\sqrt{(2n+\frac13)\pi}\,e^{-n}$ dla tego prawdopodobieństwa, które działa dość dobrze aż do $n=3$ , a nawet do $n=1$ w zależności od tego, jak surowe są twoje kryteria.]

(Odpowiedź na komentarz :) Prawdopodobieństwo, że nie uzyska się konkretnej obserwacji w danym ponownym próbkowaniu, wynosi $(1-\frac{1}{n})^n$ który dla dużych $n$ jest w przybliżeniu $e^{-1}$ .

Aby uzyskać szczegółowe informacje, zobacz
Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?

Glen_b - Przywróć Monikę
źródło

Dziękuję Ci! jako ciekawostkę, jaka jest szansa, że nie uzyska konkretnego wpisu w próbie? na przykład z rozkładem

a, b, c

$a,b,c$ dałeś, istnieje 8/27 szansa, że nie dostaniesz próbki z

a

$a$

Jayant.M

Jest to już omówione w innych odpowiedziach na stronie, ale dodałem je powyżej (krótko).

Glen_b

Jest to prawdopodobieństwo uzyskania próbki, która jest permutacją oryginalnej próbki. Zamiast tego istnieje prawdopodobieństwo uzyskania dokładnie takiej samej sekwencji jak w oryginalnej próbce (a więc tych samych elementów w tej samej kolejności)

(\frac{1}{n})^{n}

$(\frac {1}{n})^n$ . Dobrze?

DeltaIV

@deltaiv tak, tylko jeden z

n!

$n!$ ustalenia są w oryginalnej kolejności.

Glen_b

Czy przybliżenie Gospera nie działa dobrze nawet do

n = 1

$n=1$ , nie tylko do

n = 3

$n=3$ ? Myślę, że 0,499 (dla

n = 2

$n=2$ ) jest całkiem dobrym przybliżeniem do 0,5 i 0,996 (dla

n = 1

$n=1$ ) jest również bardzo zbliżona do 1,0.

Karl Ove Hufthammer

Szansa, że ​​próbka bootstrap jest dokładnie taka sama jak oryginalna próbka

Odpowiedzi:

Szansa, że próbka bootstrap jest dokładnie taka sama jak oryginalna próbka