Jeśli wybieram 232 osoby z puli 363 osób bez wymiany, jakie jest prawdopodobieństwo, że 2 z listy 12 konkretnych osób znajdą się w tym wyborze?
To losowe losowanie w wyścigu ultra, w którym udział wzięło 363 uczestników na 232 miejsca. Istnieje spór o to, czy wybór był stronniczy wobec pewnej grupy 12 osób.
Moją pierwszą próbą obliczenia tego było to, że było 232 wyborów 363 możliwych wyborów. Liczba kombinacji dowolnej osoby z listy dwunastu wynosi 1 wybierz 12 + 2 wybierz 12 + ... + 11 wybierz 12 + 12 wybierz 12. Zatem 1 wybierz 12 + 2 wybierz 12 .... / 232 wybierz 363 , Co kończy się bardzo niską liczbą, która jest wyraźnie zbyt niska.
Jak to obliczyć?
Odpowiedzi:
Interpretuję pytanie w ten sposób: załóżmy, że próbkowanie zostało rzekomo przeprowadzone tak, jakby bilety z białego papieru zostały umieszczone w słoiku, każdy oznaczony imieniem jednej osoby, a 232 zostały wyjęte losowo po dokładnym wymieszaniu zawartości słoika. Wcześniej 12 biletów miało kolor czerwony. Jaka jest szansa, że dokładnie dwa wybrane bilety są czerwone? Jaka jest szansa, że maksymalnie dwa bilety są czerwone?363 232 12
Dokładną formułę można uzyskać, ale nie musimy wykonywać tyle pracy teoretycznej. Zamiast tego śledzimy szanse, kiedy bilety są wyciągane ze słoika. W momencie wycofania z nich, niech szansa, że zobaczyłem dokładnie i czerwone bilety, zostanie zapisana p ( i , m ) . Aby rozpocząć, zwróć uwagę, że p ( i , 0 ) = 0, jeśli i > 0 (nie możesz mieć żadnych czerwonych biletów, zanim zaczniesz) ip ( 0 , 0 ) = 1m ja p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 (jest pewne, że na początku nie masz czerwonych biletów). Teraz, podczas ostatniego losowania, albo bilet był czerwony, albo nie był. W pierwszym przypadku wcześniej mieliśmy szansę na zobaczenie dokładnie i - 1 czerwonych biletów. Wtedy stało się potem wyciągnąć czerwoną jednego z pozostałych 363 - m + 1 biletów, co dokładnie i czerwony bilety do tej pory. Ponieważ zakładamy, że wszystkie bilety mają równe szanse na każdym etapie, dlatego nasza szansa na narysowanie czerwonego w ten sposób wyniosła ( 12 - i + 1p ( i - 1 , m - 1 ) i - 1 363 - m + 1 ja . W drugim przypadku mieliśmy szansę p ( i , m - 1 ) na uzyskanie dokładnie i czerwonych biletów w poprzednichlosowaniach m - 1 , a szansa, żeniedodamy kolejnego czerwonego biletu do próbki na następnym losowaniu wynosiła ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )( 12 - i + 1 ) / ( 363 - m + 1 ) p ( i , m - 1 ) ja m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ) . Skąd, stosując podstawowe aksjomaty prawdopodobieństwa (tj. Szanse dwóch wzajemnie wykluczających się przypadków dodają i szanse warunkowe mnożą się),
Powtarzamy to obliczenie rekurencyjnie, układając trójkątny układ wartości dla 0 ≤ i ≤ 12 i 0 ≤ m ≤ 232 . Po krótkim obliczeniach uzyskać p ( 2 , 232 ) ≈ 0,000849884 i P ( 0 , 232 ) + P ( 1 , 232 ) + P ( 2 , 232 ) ≈p ( i , m ) 0 ≤ i ≤ 12 0 ≤ m ≤ 232 s ( 2 , 232 ) ≈ 0,000849884 , odpowiadając na obie wersje pytania. Są to małe liczby: bez względu na to, jak na to spojrzysz, są to dość rzadkie zdarzenia (rzadziej niż jeden na tysiąc).p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
W ramach podwójnej kontroli wykonałem to ćwiczenie z komputerem 1 000 000 razy. W 932 = 0,000932 tych eksperymentów zaobserwowano 2 lub mniej czerwonych biletów. Jest to bardzo bliskie obliczonemu wynikowi, ponieważ fluktuacja próbkowania w oczekiwanej wartości 934,3 wynosi około 30 (w górę lub w dół). Oto jak przeprowadzana jest symulacja w języku R:
Tym razem, ponieważ eksperymenty są losowe, wyniki nieco się zmieniły: w 948 milionach prób zaobserwowano dwa lub mniej czerwonych biletów. Jest to nadal zgodne z wynikiem teoretycznym).
Wniosek jest taki, że jest bardzo mało prawdopodobne, aby dwa lub mniej z 232 biletów były czerwone. Jeśli rzeczywiście masz próbkę 232 z 363 osób, wynik ten jest silnym dowodem, że model biletów w słoiku nie jest poprawnym opisem sposobu uzyskania próbki. Alternatywne wyjaśnienia obejmują (a) czerwone bilety były trudniejsze do pobrania ze słoika („uprzedzenie” względem nich), a także (b) bilety były zabarwione po zaobserwowaniu próbki ( szpiegowanie danych post-hoc , co powoduje nie wskazuj żadnych stronniczości).
Przykładem wyjaśnienia (b) w działaniu może być skład ław przysięgłych dla notorycznego procesu morderstwa. Załóżmy, że obejmowało 363 osoby. Z tej puli sąd przesłuchał 232 z nich. Ambitny reporter gazety skrupulatnie dokonuje przeglądu życia wszystkich w basenie i zauważa, że 12 z 363 hodowców złotych rybek, ale tylko dwóch z nich udzieliło wywiadu. Czy sąd jest stronniczy w stosunku do hodowców złotych rybek? Prawdopodobnie nie.
źródło
sample
). W efekcie przy każdej iteracjisample
dokładnie miksuje bilety za każdym razem, gdy jest wywoływane, zanim cofa 232 z nich.@ Whuber dał wyczerpujące wyjaśnienie, chcę tylko zauważyć, że istnieje standardowy rozkład statystyczny odpowiadający temu scenariuszowi: rozkład hipergeometryczny . Możesz więc uzyskać takie prawdopodobieństwa bezpośrednio, powiedzmy R:
Prawdopodobieństwo dokładnie 2 z 12 wybranych:
Prawdopodobieństwo 2 lub mniej spośród 12 wybranych:
źródło
Prawdopodobieństwo jest znacznie wyższa niż obliczona z rozkładu hypergeometric proste, ponieważ grupa ta jest wybierana losowo ( „12 ryby pomalowany na czerwono przed rysować” ).
Z opisu pytania testujemy pod kątem oszustwa w losowaniu. Konkretna grupa 12 osób skarżyła się, że wybrano tylko 2 z nich, podczas gdy spodziewana liczba to 232/363 ~ 2/3 = 8.
To, co naprawdę musimy obliczyć, to jakie są szanse, że „ Żadna grupa wielkości 12 nie będzie miała tylko 2 wybranych członków”. Szanse, że co najmniej jedna grupa będzie miała 2 lub mniej (dlatego będą skarżyć się na uczciwość losowania) są znacznie wyższe.
Kiedy przeprowadzam tę symulację i sprawdzam, ile prób nie ma w żadnej z 30 (= 360/12) grup 2 lub mniej wyborów, mam około 2,3% przypadków. 1:42 jest niska, ale nie niemożliwa.
Nadal powinieneś sprawdzić procedurę losowania, ponieważ może ona być stronnicza w stosunku do określonej grupy osób. Mogli się spotkać i otrzymać zakres losowania z mniejszym prawdopodobieństwem (na przykład pierwsza lub ostatnia liczba) lub dowolną zmienną zależną od procedury losowania. Ale jeśli nie znajdziesz żadnej wady procedury, możesz powrócić do szans 1:42, że dla grupy to po prostu pech.
źródło