Oto przykładowy przypadek:
- Mam populację 10 000 przedmiotów. Każdy element ma unikalny identyfikator.
- Losowo wybieram 100 przedmiotów i zapisuję identyfikatory
- Odłożyłem 100 przedmiotów z powrotem do populacji
- Losowo ponownie wybieram 100 przedmiotów, zapisuję identyfikatory i wymieniam.
- W sumie powtarzam losowe próbkowanie 5 razy
Jakie jest prawdopodobieństwo, że liczba elementów pojawi się we wszystkich 5 losowych próbkach?
Nie znam się na statystykach. Czy byłoby to poprawne dla ?
- Dla każdego próbkowania liczba możliwych kombinacji 100 elementów z 10 000 wynosi
- Spośród wszystkich możliwych kombinacji 100 elementów kombinacje zawierają 10 określonych elementów
- Prawdopodobieństwo posiadania 10 określonych pozycji to
- Obliczone prawdopodobieństwo potęgi 5 reprezentowałoby 5 niezależnych próbek.
Więc w zasadzie obliczamy tylko 5 niezależnych prawdopodobieństw hipergeometrycznych, a następnie mnożymy je razem? Czuję, że gdzieś mi brakuje kroku.
probability
hypergeometric
daemonk
źródło
źródło
Odpowiedzi:
Oblicz szanse rekurencyjnie.
Niech jest prawdopodobieństwo, że dokładnie wartości, , wybierane są we wszystkich niezależny czerpie z elementów (bez wymiany) z populacji członków . (Trzymajmy i ustalone na czas analizy, aby nie musiały być wyraźnie wymienione).ps(x) x 0≤x≤k s≥1 k n≥k>0 n k
Niech będzie prawdopodobieństwem, że jeśli dokładnie wartości zostaną wybrane w pierwszych losowaniach , to z nich zostanie wybranych w ostatnim losowaniu. Następnie, ponieważ istnieją podzbiory elementów tych elementów i podzbiory pozostałych elementów oddzielnie wybiera się z pozostałych członków populacjips(x∣y) y s−1 x≤y (yx) x y (n−yk−x) k−x n−y
Zapewnia prawo całkowitego prawdopodobieństwa
Dla jest pewne, że : jest to rozkład początkowy.s=1 x=k
Całkowite obliczenie potrzebne do uzyskania pełnego rozkładu w górę poprzez powtórzeń to . Algorytm jest nie tylko dość szybki, ale także łatwy. Jedną z pułapek czekających na nieostrożnego programistę jest to, że prawdopodobieństwa te mogą stać się wyjątkowo małe i obliczenia zmiennoprzecinkowe poniżej granicy. Poniższa implementacja pozwala tego uniknąć, obliczając wartości w kolumnach tablicy.s O(k2s) log(ps(x)) 1,2,…,s
R
Odpowiedź na pytanie uzyskuje się, pozwalając , a .s=5, n=10000=104 k=100=102 Dane wyjściowe to tablica , ale większość liczb jest tak mała, że możemy skupić się na bardzo małym . Oto pierwsze cztery wiersze odpowiadające :101×5 x x=0,1,2,3
Dane wyjściowe to
Wartości oznaczają wiersze, a wartości oznaczają kolumny. Kolumna 5 pokazuje, że prawdopodobieństwo pojawienia się jednego elementu we wszystkich pięciu próbkach jest niewielkie (około jeden na milion) i zasadniczo nie ma szans, że we wszystkich pięciu próbkach pojawią się dwa lub więcej elementów.x s
Jeśli chcesz zobaczyć, jak małe są te szanse, spójrz na ich logarytmy. Baza 10 jest wygodna i nie potrzebujemy wielu cyfr:
Dane wyjściowe mówią nam, ile jest zer po przecinku:
Liczby w górnym rzędzie są wartościami . Na przykład, szansa na pojawienie się dokładnie trzech wartości we wszystkich pięciu próbkach jest obliczana na podstawie obliczeń , dając i faktycznie ma to zer przed pierwsza cyfra znacząca. Jako sprawdzenie, ostatnia wartość jest zaokrągloną wersją . (która liczy szanse, że pierwsza próbka pojawi się ponownie w następnych czterech próbkach) wynosix 0.0000000000000000001434419… 18 967.0 967.26 (10000100)−4 10−967.26.
exp(u[4])
źródło
Właśnie natknąłem się na podobny problem i mimo że nie wiem, czy jest to prawidłowe rozwiązanie, podszedłem do niego w następujący sposób:
Jesteś zainteresowany pojawieniem się elementów w 5 próbkach - elementów na elementów ogółem. Możesz pomyśleć o urnie z białymi kulkami i czarnymi kulkami. kulek jest wyjmowanych, a to prawdopodobieństwo, że masz wszystkie białych kulek w swoim zestawie. Jeśli zrobisz to razy (niezależnie), to: .X 100 10,000 X 10,000−X 100 ph X 5 p=ph5
Mógłbym nawet wymyślić jeden krok dalej i owinąć go wokół rozkładu dwumianowego: Jeśli masz monetę, która pojawia się z prawdopodobieństwem (prawdopodobieństwo, że masz wszystkie przedmioty w zestawie) i rzucisz ją razy, co to jest prawdopodobieństwo zdobycia głów? .ph 5 5 p=(55)ph5(1−ph)5−5=ph5
źródło
Opierając się na tym, co powiedział Hans, chcesz zawsze uzyskać te same identyfikatory w każdej próbce 100 i 100- identyfikatorów spośród pozostałych 10000- . Prawdopodobieństwo zrobienia tego dla danej próbki jest określone przez funkcję hipergeometryczną dla sukcesów w losowaniu 100 z populacji 10000 z możliwymi stanami sukcesu: . Dla 5 próbek weźmiesz .X X X X X P=(XX)(10000−X100−X)(10000100) P5
Jednak, że zakładają znając identyfikatory, które są wspólne, i istnieje sposobów wybrać te identyfikatory. Ostateczna odpowiedź to .X (10000X) X (10000X)P5
źródło