Jaka jest prawdziwa odpowiedź na pytanie urodzinowe?

13

„Jak duża musi być klasa, aby prawdopodobieństwo znalezienia dwóch osób w te same urodziny co najmniej 50%?”

Mam na Facebooku 360 znajomych i, zgodnie z oczekiwaniami, rozkład ich urodzin wcale nie jest jednolity. Mam jeden dzień z 9 przyjaciółmi na te same urodziny. (9 miesięcy po wielkich świętach i walentynkach wydają się być wielkie, lol ..) Więc biorąc pod uwagę, że niektóre dni są bardziej prawdopodobne na urodziny, zakładam, że liczba 23 jest górna.

Czy można lepiej oszacować ten problem?

Adam
źródło
3
Próbka 360 osób nie tworzy dużej próbki do podziału urodzin na 365 dni w roku ... Z pewnością nie można sprawdzić jednolitości w przypadku tak małej próbki.
Xi'an
Osoba ma urodziny, jakie są szanse, że druga osoba nie będzie miała tych samych urodzin? 364/365, jakie są szanse, że trzecia osoba nie podzieli ani daty urodzin? (364/365) * (363/365). Rozwijaj to, aż uzyskasz prawdopodobieństwo < 50%. Oznaczałoby to szanse, że nikt nie będzie miał tych samych urodzin, co z kolei oznaczałoby, że szanse na co najmniej dwa dni na urodziny będą takie same > 50%.
zzzzBov
8
Czy zakładamy, że masz przypadkowych przyjaciół?
James
1
@zzzzBov - nie rozumiesz, o co prosi OP. W tym podejściu zakładamy, że każde urodziny są jednakowo prawdopodobne, z każdym przypadkiem bycia twoim. OP prosi o oszacowanie, kiedy powiedziano, że narodziny 1 stycznia nie są tak prawdopodobne, jak narodziny 15 lutego1365
prawdopodobieństwo

Odpowiedzi:

18

Na szczęście ktoś opublikował kilka prawdziwych danych dotyczących urodzin z krótką dyskusją na związane z tym pytanie (czy to mundur dystrybucji). Możemy użyć tego i ponownego próbkowania, aby pokazać, że odpowiedź na twoje pytanie jest najwyraźniej 23 - taka sama jak odpowiedź teoretyczna .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Peter Ellis
źródło
8
Rzeczywiście, poprzez wypukłość Schura można pokazać , że dla każdej niejednolitej dystrybucji urodzin prawdopodobieństwo dopasowania jest co najmniej tak duże, jak w przypadku munduru. To jest ćwiczenie 13.7 J. Michaela Steele'a, The Master of Cauchy-Schwarz: Wprowadzenie do sztuki nierówności matematycznych , Cambridge University Press, 2004, str. 206 .
kardynał
2
@ Xi'an: Rzeczywiście. Teraz, gdybym tylko znał kogoś, kto rezerwował recenzje dla wysokiej jakości magazynu o statystykach dla czytelników, sugerowałbym, aby przejrzał go, aby zwiększyć widoczność dla statystów ... ale gdzie znaleźć taką osobę ...
kardynał
3
(Dla tych, którzy mogą się zastanawiać nad moim bezpośrednio poprzedzającym komentarzem, odwołuje się do faktu, że @ Xi'an jest nowo mianowanym recenzentem książek dla Chance .)
kardynał
2
@ Xi'an, to sprawdzić i zobaczyć, co myślisz: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Prawdopodobnie nie jest jasne, z wyjątkiem R. cognoscenti, że kod w poprzednich komentarzach @ Xi'ana i mnie symuluje sytuację OP. Uruchomienie go pokazuje, że szansa na 9 lub więcej osób dzielących urodziny, spośród 360 losowo wybranych z równomiernie rozmieszczonej populacji, wynosi tylko około 40 na 100 000. Najbardziej prawdopodobna wartość maksymalnej liczby wspólnych urodzin to 5.
whuber