Jakie jest prawdopodobieństwo, że n osób z listy m osób znajdzie się w losowej selekcji x osób z listy y osób?

10

Jeśli wybieram 232 osoby z puli 363 osób bez wymiany, jakie jest prawdopodobieństwo, że 2 z listy 12 konkretnych osób znajdą się w tym wyborze?

To losowe losowanie w wyścigu ultra, w którym udział wzięło 363 uczestników na 232 miejsca. Istnieje spór o to, czy wybór był stronniczy wobec pewnej grupy 12 osób.

Moją pierwszą próbą obliczenia tego było to, że było 232 wyborów 363 możliwych wyborów. Liczba kombinacji dowolnej osoby z listy dwunastu wynosi 1 wybierz 12 + 2 wybierz 12 + ... + 11 wybierz 12 + 12 wybierz 12. Zatem 1 wybierz 12 + 2 wybierz 12 .... / 232 wybierz 363 , Co kończy się bardzo niską liczbą, która jest wyraźnie zbyt niska.

Jak to obliczyć?

Sarge
źródło
1
Dwa punkty techniczne. Po pierwsze, masz teraz do czynienia z prawdopodobieństwem, a nie prawdopodobieństwem, ponieważ znany jest wynik. Po drugie, nie ma znaczenia, jakie jest teoretyczne prawdopodobieństwo, biorąc pod uwagę, że masz wynik. Myślę, że lepiej byłoby podejść do metody zastosowanej do selekcji: jak wybrano selekcje? Musisz udowodnić poprawność metody, a nie poprawność wyniku.
Michelle,
1
Można by to uznać za prawdopodobieństwo, Michelle, w celu oszacowania prawdopodobieństwa wyboru. Wydaje się, że tak nie jest.
whuber
Należy zachować ostrożność, posługując się prostym obliczeniem hipergeometrycznego RV, ponieważ 12 osób, które narzekają, nie jest losowo wybieranych. Oni skarżą ponieważ oni nie wybiera.
Guy

Odpowiedzi:

10

Interpretuję pytanie w ten sposób: załóżmy, że próbkowanie zostało rzekomo przeprowadzone tak, jakby bilety z białego papieru zostały umieszczone w słoiku, każdy oznaczony imieniem jednej osoby, a 232 zostały wyjęte losowo po dokładnym wymieszaniu zawartości słoika. Wcześniej 12 biletów miało kolor czerwony. Jaka jest szansa, że dokładnie dwa wybrane bilety są czerwone? Jaka jest szansa, że maksymalnie dwa bilety są czerwone?36323212

Dokładną formułę można uzyskać, ale nie musimy wykonywać tyle pracy teoretycznej. Zamiast tego śledzimy szanse, kiedy bilety są wyciągane ze słoika. W momencie wycofania z nich, niech szansa, że zobaczyłem dokładnie i czerwone bilety, zostanie zapisana p ( i , m ) . Aby rozpocząć, zwróć uwagę, że p ( i , 0 ) = 0, jeśli i > 0 (nie możesz mieć żadnych czerwonych biletów, zanim zaczniesz) ip ( 0 , 0 ) = 1mjap(ja,m)p(ja,0)=0ja>0p(0,0)=1(jest pewne, że na początku nie masz czerwonych biletów). Teraz, podczas ostatniego losowania, albo bilet był czerwony, albo nie był. W pierwszym przypadku wcześniej mieliśmy szansę na zobaczenie dokładnie i - 1 czerwonych biletów. Wtedy stało się potem wyciągnąć czerwoną jednego z pozostałych 363 - m + 1 biletów, co dokładnie i czerwony bilety do tej pory. Ponieważ zakładamy, że wszystkie bilety mają równe szanse na każdym etapie, dlatego nasza szansa na narysowanie czerwonego w ten sposób wyniosła ( 12 - i + 1p(ja-1,m-1)ja-1363-m+1ja . W drugim przypadku mieliśmy szansę p ( i , m - 1 ) na uzyskanie dokładnie i czerwonych biletów w poprzednichlosowaniach m - 1 , a szansa, żeniedodamy kolejnego czerwonego biletu do próbki na następnym losowaniu wynosiła ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )(12-ja+1)/(363-m+1)p(ja,m-1)jam-1(363-m+1-12+ja)/(363-m+1). Skąd, stosując podstawowe aksjomaty prawdopodobieństwa (tj. Szanse dwóch wzajemnie wykluczających się przypadków dodają i szanse warunkowe mnożą się),

p(ja,m)=p(ja-1,m-1)(12-ja+1)+p(ja,m-1)(363-m+1-12+ja)363-m+1.

Powtarzamy to obliczenie rekurencyjnie, układając trójkątny układ wartości dla 0 i 12 i 0 m 232 . Po krótkim obliczeniach uzyskać p ( 2 , 232 ) 0,000849884 i P ( 0 , 232 ) + P ( 1 , 232 ) + P ( 2 , 232 ) p(ja,m)0ja120m232p(2),232)0,000849884 , odpowiadając na obie wersje pytania. Są to małe liczby: bez względu na to, jak na to spojrzysz, są to dość rzadkie zdarzenia (rzadziej niż jeden na tysiąc).p(0,232)+p(1,232)+p(2),232)0,000934314

W ramach podwójnej kontroli wykonałem to ćwiczenie z komputerem 1 000 000 razy. W 932 = 0,000932 tych eksperymentów zaobserwowano 2 lub mniej czerwonych biletów. Jest to bardzo bliskie obliczonemu wynikowi, ponieważ fluktuacja próbkowania w oczekiwanej wartości 934,3 wynosi około 30 (w górę lub w dół). Oto jak przeprowadzana jest symulacja w języku R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Tym razem, ponieważ eksperymenty są losowe, wyniki nieco się zmieniły: w 948 milionach prób zaobserwowano dwa lub mniej czerwonych biletów. Jest to nadal zgodne z wynikiem teoretycznym).

Wniosek jest taki, że jest bardzo mało prawdopodobne, aby dwa lub mniej z 232 biletów były czerwone. Jeśli rzeczywiście masz próbkę 232 z 363 osób, wynik ten jest silnym dowodem, że model biletów w słoiku nie jest poprawnym opisem sposobu uzyskania próbki. Alternatywne wyjaśnienia obejmują (a) czerwone bilety były trudniejsze do pobrania ze słoika („uprzedzenie” względem nich), a także (b) bilety były zabarwione po zaobserwowaniu próbki ( szpiegowanie danych post-hoc , co powoduje nie wskazuj żadnych stronniczości).

Przykładem wyjaśnienia (b) w działaniu może być skład ław przysięgłych dla notorycznego procesu morderstwa. Załóżmy, że obejmowało 363 osoby. Z tej puli sąd przesłuchał 232 z nich. Ambitny reporter gazety skrupulatnie dokonuje przeglądu życia wszystkich w basenie i zauważa, że ​​12 z 363 hodowców złotych rybek, ale tylko dwóch z nich udzieliło wywiadu. Czy sąd jest stronniczy w stosunku do hodowców złotych rybek? Prawdopodobnie nie.

Whuber
źródło
Uwaga: W symulacji nie ma znaczenia, że ​​zaznaczone są pierwsze 12 „biletów”, ponieważ całe próbkowanie odbywa się losowo bez zamiany (via sample). W efekcie przy każdej iteracji sampledokładnie miksuje bilety za każdym razem, gdy jest wywoływane, zanim cofa 232 z nich.
whuber
2
Dobroć - tego nie oczekiwałam. Dziękujemy za dokładną pracę i dobre wyjaśnienie. (Co ciekawe, faktycznie przeszedłem szkolenie z statystyki na uniwersytecie w Auckland, gdzie R został opracowany po raz pierwszy)
Sarge
10

@ Whuber dał wyczerpujące wyjaśnienie, chcę tylko zauważyć, że istnieje standardowy rozkład statystyczny odpowiadający temu scenariuszowi: rozkład hipergeometryczny . Możesz więc uzyskać takie prawdopodobieństwa bezpośrednio, powiedzmy R:

Prawdopodobieństwo dokładnie 2 z 12 wybranych:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Prawdopodobieństwo 2 lub mniej spośród 12 wybranych:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314
Aniko
źródło
+1 dzięki. Powinienem był wspomnieć o tym połączeniu. Rozkład hipergeometryczny pojawia się klasycznie w eksperymentach próbkowania i próbkowania. 12 konkretnych osób (moje „czerwone bilety”) są jak ryby, które zostały złapane, oznakowane i wrzucone z powrotem do basenu; próbka 232 jest jak zestaw ryb, które są następnie łapane. Rozkład hipergeometryczny opisuje częstotliwości złapanych ryb.
whuber
0

Prawdopodobieństwo jest znacznie wyższa niż obliczona z rozkładu hypergeometric proste, ponieważ grupa ta jest wybierana losowo ( „12 ryby pomalowany na czerwono przed rysować” ).

Z opisu pytania testujemy pod kątem oszustwa w losowaniu. Konkretna grupa 12 osób skarżyła się, że wybrano tylko 2 z nich, podczas gdy spodziewana liczba to 232/363 ~ 2/3 = 8.

To, co naprawdę musimy obliczyć, to jakie są szanse, że „ Żadna grupa wielkości 12 nie będzie miała tylko 2 wybranych członków”. Szanse, że co najmniej jedna grupa będzie miała 2 lub mniej (dlatego będą skarżyć się na uczciwość losowania) są znacznie wyższe.

Kiedy przeprowadzam tę symulację i sprawdzam, ile prób nie ma w żadnej z 30 (= 360/12) grup 2 lub mniej wyborów, mam około 2,3% przypadków. 1:42 jest niska, ale nie niemożliwa.

Nadal powinieneś sprawdzić procedurę losowania, ponieważ może ona być stronnicza w stosunku do określonej grupy osób. Mogli się spotkać i otrzymać zakres losowania z mniejszym prawdopodobieństwem (na przykład pierwsza lub ostatnia liczba) lub dowolną zmienną zależną od procedury losowania. Ale jeśli nie znajdziesz żadnej wady procedury, możesz powrócić do szans 1:42, że dla grupy to po prostu pech.

Guy
źródło
Dobra uwaga, ALE (a) na pewno nie każda możliwa grupa 12 osób ma wystarczające podobieństwo do materii i (b) nie wszystkie grupy, które mają wystarczające podobieństwo do materii, mają dokładnie 12 członków.
zbicyclist,
@zbicyclist, nie twierdzę, że obliczenia są dokładne. Chciałem dać uzasadnioną wątpliwość (ponieważ jesteśmy w dziedzinie prawa z wykrywaniem oszustw), że losowanie nie jest winne.
Guy