Prawdopodobieństwo urodzenia w dniu przestępnym?

31

Biorąc pod uwagę, że dzisiaj jest dzień przestępny, czy ktoś wie, że istnieje prawdopodobieństwo, że się urodzi w dniu przestępnym?

StatsStudent
źródło
30
Zauważ, że porody nie są rozmieszczone równomiernie przez cały rok, więc prawdopodobieństwo, że losowo wybrany dzień będzie dniem przestępnym, nie jest takie samo, jak prawdopodobieństwo urodzenia w jednym dniu.
Ben Millwood
17
Z kogo się rodzisz? Wszyscy ludzie w historii? Dzisiaj? Wszyscy żyją? Perspektywicznie w przyszłość? Prawdopodobieństwa są bez znaczenia, chyba że zdarzenia, do których się odnoszą, są dobrze określone.
whuber
15
Tak będzie w 100% z dzisiejszych ludzi. To pomaga?
azyl
8
Wielu rodziców nie chce, aby ich dzieci rodziły się w dniu przestępnym. Tak więc wraz ze wzrostem zaplanowanych odcinków C prawdopodobieństwo będzie niższe niż losowy dzień. fivethirtyeight.com/features/…
James Lawruk
3
Zgadzam się z @whuber, że pytanie jest źle zdefiniowane. Bez właściwej definicji przestrzeni prawdopodobieństwa na pytanie nie można odpowiedzieć. Stąd opinia.
mpiktas

Odpowiedzi:

24

Pewnie. Bardziej szczegółowe wyjaśnienie znajduje się tutaj: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

. Ale w istocie autor stwierdza: „Istnieje 485 lat przestępnych w 2 tysiąclecia tak, to w 2 tysiąclecia, istnieją Wszystkich dzień z tych dni, 29 lutego wystąpi w. 485 z nich (w latach przestępnych), więc prawdopodobieństwo wynosi 485 / 730.485 = 0,0006639424 "485(366)+(2000-485)(365)=730485485/730485=0,0006639424

StatsStudent
źródło
9
Dlaczego nie można go obliczyć jako 1 / (liczba dni w ciągu 4 lat) = 1/1461 = 0,00068 ?
Siddhesh
21
@ Siddhesh Istnieje zasada dotycząca stuleci. Tak więc np. 2100 nie jest rokiem przestępnym
Rentrop
8
@ Siddhesh, Niestety, nie jest to takie proste. Lata przestępne są nieco bardziej złożone. Średnia długość roku to w rzeczywistości średnio 365.2425 dni, a nie 365.25. Jak napisano na stronie roku przestępnego wikipedii: „Kalendarz gregoriański… usuwa trzy dni przestępne co 400 lat, co jest długością jego cyklu przestępczego. Odbywa się to poprzez usunięcie 29 lutego w ciągu trzech stuleci (wielokrotności 100) których nie można dokładnie podzielić przez 400. [3] Lata 2000 i 2400 to lata przestępne, zaś 1800, 1900, 2100, 2200, 2300 i 2500 to lata wspólne. ”
StatsStudent
10
Nie rozumiem, dlaczego należy wziąć pod uwagę 2000 lat; lata przestępne są w cyklu 400-letnim, więc dlaczego nie zredukować do „istnieje 97 lat przestępnych w 400 lat”?
Philip Kendall
7
Dlaczego powinniśmy brać pod uwagę tak niewielkie wpływy, jak „anulowane” dni przestępne w stuleciu, a nie wielokrotności 400, ale z drugiej strony nie brać pod uwagę wpływów zewnętrznych, takich jak prawie wszystkie porody opóźnione lub wprowadzone przed 29 lutego, tylko po to, aby uratować dziecko z niedogodności (lub z innych powodów)? - Przynajmniej tutaj, w Niemczech, prawdopodobieństwo porodu w dowolnym dniu 29 lutego jest (szacowane) prawie zerowe.
Jestem z Monicą
23

Aby dokładnie przewidzieć to prawdopodobieństwo za pomocą statystyk, dobrze byłoby wiedzieć, gdzie ma miejsce poród.

Ta strona http://chmullig.com/2012/06/births-by-day-of-year/ ma wykres pokazujący podzbiór liczby urodzeń dziennie (pomnożenie 29. przez 4, co jest niepoprawne i niepożądane w przypadku tego pytania, ale zawiera również linki do oryginalnych danych i daje przybliżone wskazanie tego, czego można się spodziewać) w Stanach Zjednoczonych. Zakładałbym, że ta krzywa nie jest prawdziwa dla innych krajów, a zwłaszcza dla innych kontynentów. W szczególności półkula południowa i region równikowy mogą wykazywać znaczne pochodzenie na podstawie tych wyników - przy założeniu, że czynnikiem decydującym jest klimat.

Ponadto istnieje kwestia „narodzin do wyboru” (poruszona przez autorów strony http://bmjopen.bmj.com/content/3/8/e002920.full ) - w biedniejszych regionach globu oczekiwałbym innej rozkład urodzeń, po prostu dlatego, że cesarskie cięcie (inne niż nagłe) lub poród indukowany są rzadsze niż w krajach rozwiniętych. To wypacza ostateczny rozkład urodzeń.

Korzystając z danych amerykańskich, zakładając, że ~ 71 milionów urodzeń (przybliżona średnia * 366) i 46.000 urodzeń w dniu 29 lutego, nie korygując rozkładu lat przestępnych w danych, ponieważ dokładny okres nie jest wskazany, dochodzę do prawdopodobieństwa około ~ 0,000648. Jest to nieco poniżej wartości, jakiej można by oczekiwać, biorąc pod uwagę płaski rozkład urodzeń, a zatem zgodnie z ogólnym wrażeniem wynikającym z wykresu.

Test istotności tych przybliżonych ocen pozostawię zmotywowanemu czytelnikowi. Biorąc jednak pod uwagę, że 29. (choć nieskorygowany - rok 2000 wprowadza dane poniżej przeciętnej stronniczości) wyniki są niskie, nawet w przypadku już niskich standardów lutowych, zakładam stosunkowo dużą pewność, że hipotezę zerową o równym rozkładzie można odrzucić.

Rick Moritz
źródło
1
Zestaw danych zawiera daty urodzenia 30 i 31 lutego. Zabawne. Przed analizą wymaga porządnego wyczyszczenia, ale zawiera wiele danych, co jest świetne.
Aksakal
22

Myślę, że odpowiedź na to pytanie może być tylko empiryczna. Każda teoretyczna odpowiedź byłaby błędna bez uwzględnienia zjawisk związanych z wyborem urodzin, sezonowością itp. Z kwestiami teoretycznymi nie można sobie poradzić.

Ze względu na prywatność trudno jest znaleźć dane urodzinowe w USA. Jest jeden anonimowe dane zawarte tutaj . Pochodzi z aplikacji ubezpieczeniowych w USA. Różnica w stosunku do innych raportów, takich jak często cytowany artykuł NYT , polega na tym, że podaje on liczbę urodzeń według daty, a nie prosty ranking dni w roku. Słabym punktem jest oczywiście stronniczość próby, ponieważ pochodzi ona z ubezpieczenia: osoby nieubezpieczone nie są uwzględnione itp.

Według danych w lutym 29 było 325 urodzeń na ogół 481040. Według Roy Murphy próbka obejmuje lata 1981-1994. Obejmuje ona 3 lata przestępne o łącznej długości 14 lat. Bez żadnych zmian prawdopodobieństwo urodzenia wynosiłoby 0,0675% w dniu 29 lutego między 1981 a 1994 rokiem.

Można regulować prawdopodobieństwo, przez co stanowi częstotliwość lat przestępnych, który jest zbliżony do 1/4 ( nie dokładnie, chociaż ), np poprzez pomnożenie tej liczby przez przyjazd do 0,079% oszacowania. W tym przypadku prawdopodobieństwo warunkowe p urodzenia się 29 lutego w roku przestępnym jest powiązane z obserwowaną częstotliwością F o = 325 przez częstotliwość f L = 3 lat przestępnych w próbie: F o = f L / N F p , gdzie N = 1414/12pfao=325faL.=3)

fao=faL./N.fap,
N.=14to liczba lat w próbie, a to całkowita częstotliwość porodów.fa=481040

Zwykle prawdopodobieństwo lat przestępnym , a tym samym długim okresie średnie prawdopodobieństwo P L od narodzin 29 lut jest: P L = P LP P LNpL.1/4P.L.

P.L.=pL.ppL.N.faL.faofa0.079%

Możesz być zainteresowany warunkowego prawdopodobieństwa być urodzony w dniu 29 lutego zważywszy, że urodziłeś się na roku przestępnym: p = Np

p=N.faL.faofa0,32%

Tak więc związek między i p opiera się na kilku założeniach, np. Że prawdopodobieństwo urodzenia w danym roku jest jednolite i nie zmienia się.P.L.p

Oczywiście ta dyskusja była skoncentrowana na USA. Kto wie, jakie są wzorce w innych krajach.

AKTUALIZACJA: Automatycznie przyjęliśmy, że OP to kalendarz gregoriański. Staje się to jeszcze bardziej interesujące, jeśli weźmiesz pod uwagę różne kalendarze, takie jak kalendarz księżycowy Hijri , gdzie lata przestępne są co około 30 lat.

AKTUALIZACJA 2:

pfap=1,527Amitabh Chandra, Harvard University

Jak prawdopodobne jest to, że bardzo osobliwe dni w kalendarzu gregoriańskim: 1 stycznia, 25 grudnia i Deb 29 przypadną losowo jako najpopularniejsze urodziny? Mówię, że jest to bardzo mało prawdopodobne zdarzenie losowe. Dlatego jeszcze ciekawiej jest zobaczyć, co dzieje się w innych kalendarzach, takich jak Hijri.

AKTUALIZACJA 3:

P.L.,p

p^1/3660,27
P.^L.p3663654+10,068

AKTUALIZACJA 4:

χ2)

14365+3)

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

WYDAJNOŚĆ:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

wprowadź opis zdjęcia tutaj

Aksakal
źródło
3
To przydatna analiza (+1). Zastanawiam się, czy istnieje związek między analizowanymi częstotliwościami a (niejasno zdefiniowanym) prawdopodobieństwem wymaganym w pytaniu.
whuber
1
@ Whuber, prawdopodobieństwa w mojej odpowiedzi dotyczą przypadków takich jak analiza wniosków ubezpieczeniowych lub niektórych danych użytkownika. Na przykład masz witrynę internetową i chcesz oznaczyć problematyczne dane użytkownika. Możesz porównać częstotliwość urodzin z 29 lutego z moimi prawdopodobieństwami. Jeśli jednak planujesz rodzinę i zadajesz to pytanie, to moje liczby są bezużyteczne. Powodem jest to, że nie uwzględniają czynników takich jak na przykład fakt, kiedy para faktycznie kopuluje lub płodność i wzorce miesiączkowe par, na przykład, które są głównym wyznacznikiem daty dnia urodzenia.
Aksakal
Cieszę się, że nie zacząłeś matematyki przed rozważeniem innych czynników poza czystymi statystykami
TheBlastOne
8

Okładka mojej ulubionej książki zawiera zawsze bardzo istotne dowody przemawiające przeciwko założeniu jednolitego przydziału porodów do dat. Szczególnie, że narodziny w USA od 1970 r. Wykazują na sobie kilka trendów: długi, wieloletni trend, nieokresowy trend, trendy w ciągu tygodnia, trendy w ciągu roku, trendy wakacyjne (ponieważ procedury takie jak cesarskie cięcie sekcja pozwala efektywnie zaplanować datę urodzenia, a lekarze często nie robią tego w święta). W rezultacie prawdopodobieństwo urodzenia się w losowo wybranym dniu w ciągu roku nie jest jednolite, a ponieważ wskaźnik urodzeń zmienia się między latami, nie wszystkie lata są równie prawdopodobne.

Dowodzi to również, że rozwiązanie Asksal, choć jest bardzo silnym konkurentem, jest również niepełne. Niewielka liczba dni przestępnych będzie „skażone” przez cały mecz skutków w grę tutaj, więc oszacowanie Asksal jest również przechwytywanie (zupełnie przez przypadek) efekt day-of-tydzień i długoterminowych trendów wraz z tym 29 lutego efekt. Jakie efekty są i nie są odpowiednie do uwzględnienia, nie są jasno zdefiniowane w pytaniu.

Ta analiza dotyczy tylko Stanów Zjednoczonych, które mają trendy demograficzne, które mogą być zupełnie inne niż w przypadku innych narodów lub populacji. Na przykład wskaźnik urodzeń w Japonii spada od dziesięcioleci. Wskaźnik urodzeń w Chinach jest regulowany przez państwo, co ma pewne konsekwencje dla struktury płci w tym kraju, a tym samym wskaźników urodzeń w kolejnych pokoleniach.

Podobnie analiza Gelmana opisuje tylko kilka ostatnich dziesięcioleci i niekoniecznie jest jasne, że jest to nawet era interesująca dla twojego pytania.

wprowadź opis zdjęcia tutaj

Dla tych, którzy są podekscytowani tego rodzaju rzeczami, materiał na okładce jest obszernie omówiony w rozdziale o procesach gaussowskich.

Sycorax mówi Przywróć Monikę
źródło
2
Krótki opis zastosowanego modelu dostępny jest również w poście na blogu tutaj: andrewgelman.com/2012/06/19/…
Sakari Cajanus
3

29 lutego to coroczna data, która jest wielokrotnością 4 .

Jednak lata, które są wielokrotnością 100, ale nie są liczbą 400, nie są uważane za lata przestępne (np .: 1900 nie jest rokiem przestępnym, podczas gdy 2000 lub 1600 to). Dlatego obecnie jest to ten sam wzór co 400 lat.

Zróbmy więc matematykę w przedziale [0; 400 [ :

W okresie 400 lat jest dokładnie 4 x 25 = 100 lat, które są wielokrotnością 4 . Ale musimy odjąć 3 (lata wielokrotności 100, ale nie 400) od 100, i otrzymamy 100-3 = 97 lat.

Teraz musimy pomnożyć 97 przez 366, 97 x 366 = 35502 (liczba dni w roku przestępnym w okresie 400 lat), pozostaje (365 x (400-97)) = 110 595 (liczba dni, które nie są t w roku przestępnym w okresie 400 lat).

Następnie musimy tylko dodać te dwie liczby, aby poznać całkowitą liczbę dni w okresie 400 lat: 110 595 + 35502 = 146 097 .

Na koniec, naszym prawdopodobieństwem jest liczba 29 lutego w okresie 400 lat, więc 97, biorąc pod uwagę, że jest 97 lat przestępnych podzielonych przez całkowitą liczbę dni naszego przedziału:

p = 97/146097 = 0,0006639424492

Mam nadzieję, że jest to właściwe i jasne.

Jonathan Poid
źródło
7
To miła analiza szansy, że losowo wybraną datą będzie 29 lutego. Uważam, że większość dyskusji w tym wątku koncentruje się na fakcie, że tak naprawdę nie odpowiada to na pytania dotyczące szans na poród, które tak naprawdę nie zachowują się jak losowe losowanie z zestawu możliwych dni.
whuber
1
Znacznie łatwiejszym sposobem jest stwierdzenie, że na 400 lat przypada 97 lat przestępnych w sposób, w jaki już wypracowałeś. Oblicz liczbę dni w 400 normalnych latach. 400 * 365 = 146000. Następnie należy dodać 97 dni przestępnych, co daje 146097.
CJ Dennis
2

Sądzę, że mieszają się tutaj dwa pytania. Jednym z nich jest „Jakie jest prawdopodobieństwo, że dany dzień będzie 29 lutego?”. Drugi to (a ten faktycznie pytany) „Jakie jest prawdopodobieństwo urodzenia się w dniu przestępnym?”

p=971460970,00066394

3)149740097400143)=6796001,131667

01

entuzjasta danych
źródło
2
Errr, byłem gotowy głosować w tej sprawie, a potem dotarłem do Cóż, dla każdego, kto już się urodził, to łatwe. Jest to 0 lub 1. Nie.
mattdm
Myślę, że to trochę zależy od interpretacji prawdopodobieństw. Załóżmy, że rzuciłem monetą. Spojrzałem na to i znam wynik (np. Głowy). Stoisz obok mnie, ale nie widziałeś rezultatu. Jakie jest prawdopodobieństwo, że moneta pokazuje głowy (dla ciebie, dla mnie „obiektywnie”)? W powyższym przykładzie: dla danej (urodzonej) osoby prawdopodobieństwo wynosi 0 lub 1 (zakładając, że wie, w którą datę się urodził). Jeśli wybierzesz przypadkową osobę i będziesz musiał odgadnąć jej urodziny, prawdopodobieństwo, że będzie to 29 lutego, jest znowu pytaniem empirycznym.
data_enthusiast
1

Zauważyłem, że większość powyższych odpowiedzi rozwiązuje ten problem, obliczając liczbę dni przestępnych w danym okresie. Istnieje prostszy sposób, aby uzyskać odpowiedź, 100% dokładnie, z definicji:

Korzystamy z lat przestępnych, aby dostosować zwykły (365-dniowy) kalendarz do średniego roku tropikalnego (czyli średniego roku słonecznego). Średni rok tropikalny „to czas, w którym Słońce powraca do tej samej pozycji w cyklu pór roku, jak widać z Ziemi” (Wikipedia). Rok tropikalny różni się nieznacznie, ale średni (średni) rok tropikalny wynosi około 365.24667.

Jeśli nasze dni przestępne są prawidłowe, szansa, że ​​losowo wybrany dzień będzie dniem przestępnym, wynosi ((rok tropikalny) - (rok nieskokowy)) / rok tropikalny

Podając przybliżoną liczbę, którą mamy, jest to (365.24667-365) /365.24667 lub 0.24667 / 365.24667 lub 675 na milion (0.0675%).

Dotyczy to jednak losowo wybranego dnia. Wyobrażam sobie, że jest to znacznie wypaczone przez rodziców, którzy wolą nie musieć tłumaczyć swoim dzieciom, że „twoje prawdziwe urodziny przychodzą tylko raz na 4 lata”.

AMADANON Inc.
źródło
3
Nie sądzę, że to odpowiada na zadawane pytanie, ponieważ dzień przestępny, 29 lutego, istnieje tylko w określonych systemach kalendarza. Te systemy kalendarzowe były używane tylko w poszczególnych społeczeństwach w ostatnich epokach historycznych. Na przykład to pytanie nie jest zrozumiałe dla kogoś, kto liczy czas za pomocą hebrajskiego kalendarza, który w ogóle nie ma „lutego”! Co więcej, nawet jeśli przyjmiemy kalendarz z dniem przestępnym, nadal nie rozwiązuje on nieokreśloności otaczającej rozkład prawdopodobieństwa narodzin na dni.
Sycorax mówi Przywróć Monikę
@ user777, to nie ma znaczenia. Jeśli należysz do kultury, która nie uznaje dzień przestępny, to nadal byłoby osoby, które urodziły się na nasz dzień przestępny.
Octopus
1
@Octopus Nie, jeśli urodzili się przed październikiem 1582 r., Miesiącem wprowadzenia kalendarza gregoriańskiego. Pytanie nie jest wystarczająco szczegółowe, aby pozwolić na rozróżnienie, które populacje są brane pod uwagę, dlatego mój komentarz jest niezwykle istotny.
Sycorax mówi Przywróć Monikę
@ user777, dzielisz włosy. Chodzi o to, że kalendarz gregoriański istnieje dzisiaj i można go używać do umieszczania każdego dnia w historii, niezależnie od tego, czy obserwowali go wtedy.
Octopus
1
@Octopus Skąd wiesz, że o to chodzi?
Sycorax mówi Przywróć Monikę
-4

Zapytałem moją siostrę, której dzień urodzin to 29 lutego, a ona powiedziała: „Rezultatem moich własnych badań empirycznych było to, że jest to oczywiście 1,00”.

John Smith
źródło
Wygląda na to, że nie został doceniony. Znakomity.
John Smith