Na forach z imionami dla dzieci potencjalni rodzice cały czas powtarzają swoją wersję „Strachu przed Jennifer”: „Nie chcę, aby moje dziecko było jednym z 5 w jego klasie z jego imieniem”. Rzecz w tym, że żadna nazwa nie jest już tak podobna do popularności, a nawet u szczytu szaleństwa Jennifer nie dostałeś pięciu z nich w klasie. Chciałbym dla tych rodziców odpowiedzieć na pytanie, jak mało prawdopodobne byłoby takie powtórzenie imienia.
Korzystając z obszernych danych na temat nazwiska dziecka (Social Security Administration ) ( https://www.ssa.gov/oact/babynames/limits.html ), ktoś może mi powiedzieć, jak obliczyć szanse klasy podstawowej w USA na pięć dzieci o tym samym imieniu? (Dla uproszczenia, przez „to samo imię” rozumiem tę samą pisownię, a przez „klasę szkolną” mam na myśli, że wszystkie dzieci urodziły się w tym samym roku.) Nie określam wielkości klasy, ale zdecydowanie powinna ona być większa niż 4 . :-)
źródło
Odpowiedzi:
Wszystkie dane można znaleźć tutaj . Każda wartość w tabeli reprezentuje prawdopodobieństwo, że biorąc pod uwagę 25-osobową próbkę z tego miejsca i roku urodzenia, 5 z nich będzie miało wspólną nazwę.
Metoda : Użyłem dwumianowego pliku PDF przy każdym nazwisku, aby znaleźć prawdopodobieństwo, że każda klasa 25-osobowa będzie miała 5 osób o wspólnej nazwie:
Aktualizacja: jak wiele osób zauważyło, istnieje znaczna rozbieżność w czasie i pomiędzy stanami. Więc uruchomiłem ten sam program, na podstawie STATE BY STATE i z czasem. Oto wyniki (ogólnokrajowe prawdopodobieństwo jest czerwone, poszczególne stany są czarne):
Co ciekawe, Vermont (mój stan ojczysty) od kilku dziesięcioleci jest jednym z najbardziej prawdopodobnych miejsc, w których może się to zdarzyć.
źródło
zobacz następujący skrypt Python dla Python2.
Odpowiedź jest inspirowana odpowiedzią Davida C.
Moja ostateczna odpowiedź brzmiałaby: prawdopodobieństwo znalezienia co najmniej pięciu Jacobów w jednej klasie, przy czym Jacob jest najbardziej prawdopodobną nazwą według danych z https://www.ssa.gov/oact/babynames/limits.html „Dane krajowe „od 2006 r.
Prawdopodobieństwo oblicza się zgodnie z rozkładem dwumianowym, przy czym prawdopodobieństwo Jacoba jest prawdopodobieństwem sukcesu.
Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku spośród 25: 4.7e-07 dla imienia Jacob
Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku z 50: 1.6e-05 dla imienia Jacob, oczywiście.
Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku na 100: 0,00045 dla imienia Jacoba, oczywiście.
Współczynnik 10 taki sam jak w przypadku Davida C. Dzięki. (Moja odpowiedź nie sumuje wszystkich nazwisk, należy omówić)
źródło