Prawdopodobieństwo przecięcia z wielokrotnego próbkowania tej samej populacji

10

Oto przykładowy przypadek:

  • Mam populację 10 000 przedmiotów. Każdy element ma unikalny identyfikator.
  • Losowo wybieram 100 przedmiotów i zapisuję identyfikatory
  • Odłożyłem 100 przedmiotów z powrotem do populacji
  • Losowo ponownie wybieram 100 przedmiotów, zapisuję identyfikatory i wymieniam.
  • W sumie powtarzam losowe próbkowanie 5 razy

Jakie jest prawdopodobieństwo, że liczba elementów pojawi się we wszystkich 5 losowych próbkach?X

Nie znam się na statystykach. Czy byłoby to poprawne dla ?X=10

  • Dla każdego próbkowania liczba możliwych kombinacji 100 elementów z 10 000 wynosi binom(10000,100)
  • Spośród wszystkich możliwych kombinacji 100 elementów kombinacje binom(9990,90)binom(100,10) zawierają 10 określonych elementów
  • Prawdopodobieństwo posiadania 10 określonych pozycji to (binom(9990,90)binom(100,10))/binom(10000,100)
  • Obliczone prawdopodobieństwo potęgi 5 reprezentowałoby 5 niezależnych próbek.

Więc w zasadzie obliczamy tylko 5 niezależnych prawdopodobieństw hipergeometrycznych, a następnie mnożymy je razem? Czuję, że gdzieś mi brakuje kroku.

daemonk
źródło
3
Jeśli powtórzysz coś raz, oznacza to, że robisz to dwa razy. Czy powtarzanie czegoś 5 razy oznacza, że ​​robisz to 6 razy?
Glen_b

Odpowiedzi:

3

Oblicz szanse rekurencyjnie.

Niech jest prawdopodobieństwo, że dokładnie wartości, , wybierane są we wszystkich niezależny czerpie z elementów (bez wymiany) z populacji członków . (Trzymajmy i ustalone na czas analizy, aby nie musiały być wyraźnie wymienione).ps(x)x0xks1knk>0nk

Niech będzie prawdopodobieństwem, że jeśli dokładnie wartości zostaną wybrane w pierwszych losowaniach , to z nich zostanie wybranych w ostatnim losowaniu. Następnie, ponieważ istnieją podzbiory elementów tych elementów i podzbiory pozostałych elementów oddzielnie wybiera się z pozostałych członków populacjips(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Zapewnia prawo całkowitego prawdopodobieństwa

ps(x)=y=xkps(xy)ps1(y).

Dla jest pewne, że : jest to rozkład początkowy.s=1x=k

Całkowite obliczenie potrzebne do uzyskania pełnego rozkładu w górę poprzez powtórzeń to . Algorytm jest nie tylko dość szybki, ale także łatwy. Jedną z pułapek czekających na nieostrożnego programistę jest to, że prawdopodobieństwa te mogą stać się wyjątkowo małe i obliczenia zmiennoprzecinkowe poniżej granicy. Poniższa implementacja pozwala tego uniknąć, obliczając wartości w kolumnach tablicy.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Odpowiedź na pytanie uzyskuje się, pozwalając , a . s=5, n=10000=104k=100=102 Dane wyjściowe to tablica , ale większość liczb jest tak mała, że ​​możemy skupić się na bardzo małym . Oto pierwsze cztery wiersze odpowiadające :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Dane wyjściowe to

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Wartości oznaczają wiersze, a wartości oznaczają kolumny. Kolumna 5 pokazuje, że prawdopodobieństwo pojawienia się jednego elementu we wszystkich pięciu próbkach jest niewielkie (około jeden na milion) i zasadniczo nie ma szans, że we wszystkich pięciu próbkach pojawią się dwa lub więcej elementów.xs

Jeśli chcesz zobaczyć, jak małe są te szanse, spójrz na ich logarytmy. Baza 10 jest wygodna i nie potrzebujemy wielu cyfr:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Dane wyjściowe mówią nam, ile jest zer po przecinku:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Liczby w górnym rzędzie są wartościami . Na przykład, szansa na pojawienie się dokładnie trzech wartości we wszystkich pięciu próbkach jest obliczana na podstawie obliczeń , dając i faktycznie ma to zer przed pierwsza cyfra znacząca. Jako sprawdzenie, ostatnia wartość jest zaokrągloną wersją . (która liczy szanse, że pierwsza próbka pojawi się ponownie w następnych czterech próbkach) wynosixexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.

Whuber
źródło
0

Właśnie natknąłem się na podobny problem i mimo że nie wiem, czy jest to prawidłowe rozwiązanie, podszedłem do niego w następujący sposób:

Jesteś zainteresowany pojawieniem się elementów w 5 próbkach - elementów na elementów ogółem. Możesz pomyśleć o urnie z białymi kulkami i czarnymi kulkami. kulek jest wyjmowanych, a to prawdopodobieństwo, że masz wszystkie białych kulek w swoim zestawie. Jeśli zrobisz to razy (niezależnie), to: .X10010,000X10,000X100phX5p=ph5

Mógłbym nawet wymyślić jeden krok dalej i owinąć go wokół rozkładu dwumianowego: Jeśli masz monetę, która pojawia się z prawdopodobieństwem (prawdopodobieństwo, że masz wszystkie przedmioty w zestawie) i rzucisz ją razy, co to jest prawdopodobieństwo zdobycia głów? .ph55p=(55)ph5(1ph)55=ph5

Hans
źródło
0

Jakie jest prawdopodobieństwo, że liczba elementów pojawi się we wszystkich 5 losowych próbkach?X

Opierając się na tym, co powiedział Hans, chcesz zawsze uzyskać te same identyfikatory w każdej próbce 100 i 100- identyfikatorów spośród pozostałych 10000- . Prawdopodobieństwo zrobienia tego dla danej próbki jest określone przez funkcję hipergeometryczną dla sukcesów w losowaniu 100 z populacji 10000 z możliwymi stanami sukcesu: . Dla 5 próbek weźmiesz .XXXXXP=(XX)(10000X100X)(10000100)P5

Jednak, że zakładają znając identyfikatory, które są wspólne, i istnieje sposobów wybrać te identyfikatory. Ostateczna odpowiedź to .X(10000X)X(10000X)P5

Hao Ye
źródło
Co to jest „ ”? Nie można zrozumieć tej odpowiedzi, a tym bardziej ją sprawdzić, dopóki jej nie ujawnisz! x
whuber
Nie pamiętam, jak to było 3 lata temu, ale przypuszczalnie taki sam X jak w pytaniu?
Hao Ye
OK. Ale co uzasadnia twoją formułę? Proste kontrole, takie jak przypadek (dla którego twoja formuła mówi nam, że prawdopodobieństwo wynosi , tym samym całkowicie wykluczając inne możliwości!), Wskazują, że jest niepoprawny. X=01
whuber