Planuję ślub. Chcę oszacować, ile osób przyjdzie na mój ślub. Stworzyłem listę osób i szansę, że będą uczestniczyć w procentach. Na przykład
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
Mam listę około 230 osób z odsetkami. Jak mogę oszacować, ile osób weźmie udział w moim ślubie? Czy mogę po prostu zsumować wartości procentowe i podzielić je przez 100? Na przykład, jeśli zaproszę 10 osób z 10% szansą na przybycie, mogę spodziewać się 1 osoby? Jeśli zaproszę 20 osób z 50% szansą na przyjazd, czy mogę spodziewać się 10 osób?
AKTUALIZACJA: 140 osób przyszło na mój ślub :). Korzystając z opisanych poniżej technik, przewidziałem około 150. Niezbyt odrapany!
probability
Behacad
źródło
źródło
Odpowiedzi:
Zakładając, że decyzje zaproszonych osób o przyjściu na wesele są niezależne, liczbę gości, którzy przyjdą na wesele, można modelować jako sumę losowych zmiennych Bernoulliego, które niekoniecznie mają identyczne prawdopodobieństwo powodzenia. Odpowiada to rozkładowi dwumianowemu Poissona .
Poniższy rysunek pokazuje przykład podziału liczby uczestników na wesele w oparciu o 10000 symulowanych scenariuszy (po prawej) z wykorzystaniem pewnych fałszywych prawdopodobieństw pojawienia się dla 230 zaproszonych osób (po lewej). Kod R użyty do uruchomienia tej symulacji pokazano poniżej; zapewnia przybliżone przedziały ufności.
źródło
j
generuję liczbę „pokazów” dla każdej z 20 grup prawdopodobieństwa, stosując rozkład dwumianowy i prawdopodobieństwo pojawienia się tej grupy.Jak już wspomniano, oczekiwania po prostu się dodają.
Jednak wiedząc, że oczekiwanie nie jest zbyt użyteczne, potrzebujesz również wyczucia prawdopodobnej zmienności wokół niego.
Należy się martwić o trzy rzeczy:
zróżnicowanie osobników wokół ich oczekiwań (osoba z 60% szansą na przybycie nie spełnia swoich oczekiwań; zawsze jest powyżej lub poniżej)
zależność między ludźmi. Pary, które mogą oboje przyjść, będą albo uczestniczyć, albo nie. Małe dzieci nie będą uczestniczyć bez rodziców. W niektórych przypadkach niektóre osoby mogą uniknąć przyjazdu, jeśli wiedzą, że będzie tam inna osoba.
błąd w oszacowaniu prawdopodobieństw. Te prawdopodobieństwa to tylko domysły; możesz rozważyć wpływ nieco różnych domysłów (być może oceny tych liczb przez kogoś innego)
Pierwszy podlega obliczeniom, poprzez normalne zbliżenie lub symulację. Drugi może być symulowany przy różnych założeniach, specyficznych dla ludzi lub przez rozważenie pewnego rozkładu zależności. (Trzeci element jest trudniejszy.)
Edytowane, aby odpowiedzieć na pytania uzupełniające w komentarzach:
Jeśli dobrze rozumiem twoje sformułowania, dla czteroosobowej rodziny masz 50% szans na to, że każda z 4 osób albo nikt nie przyjdzie. Jest to z pewnością oczekiwana liczba 2, ale chciałbyś mieć pojęcie o zmienności wokół oczekiwań, w którym to przypadku prawdopodobnie chcesz zachować rzeczywistą sytuację 50% z 0/50% z 4.
Jeśli możesz podzielić wszystkich na niezależne grupy, dobrym pierwszym przybliżeniem (z dużą ilością takich grup) byłoby dodanie średnich i różnic między niezależnymi grupami, a następnie potraktowanie tej sumy jako normalnej (być może z korektą ciągłości). Bardziej dokładne podejście polegałoby na symulacji procesu lub obliczeniu rozkładu dokładnie za pomocą splotu numerycznego; chociaż oba podejścia są proste, jest to niepotrzebny poziom precyzji dla tej konkretnej aplikacji, ponieważ jest już tak wiele warstw przybliżenia - to tak, jakby powiedzieć wymiary pokoju do najbliższej stopy, a następnie obliczyć, ile farby potrzebujesz do najbliższego mililitra - dodatkowa precyzja jest bezcelowa.
Wyobraźmy sobie (dla uproszczenia), że mieliśmy cztery grupy:
1) grupa A (1 osoba) - 70% szans na uczestnictwo
2) grupa B (1 osoba) - 60% szans na uczestnictwo
3) grupa C (4-osobowa rodzina) - 0: 0,5 4: 0,5 (jeśli ktoś zostanie w domu, nikt nie przyjdzie)
4) grupa D (para 2) - 0: 0,4 1: 0,1 2: 0,5 (tj. 50% szansy na obie plus 10% szansy na dokładnie jedną, np. Jeśli druga ma zobowiązania do pracy lub jest chora)
Następnie otrzymujemy następujące środki i wariancje:
Zatem normalne przybliżenie będzie w tym przypadku dość przybliżone, ale sugeruje, że więcej niż 7 osób byłoby raczej mało prawdopodobne (rzędu 5%), a 6 lub mniej wystąpiłoby w przybliżeniu w 75-80% przypadków.
[Bardziej dokładnym podejściem może być symulacja procesu, ale w przypadku pełnego problemu, a nie skróconego przykładu, jest to prawdopodobnie niepotrzebne, ponieważ jest już tyle warstw przybliżenia.]
Po uzyskaniu łącznej dystrybucji obejmującej takie zależności grupowe, możesz chcieć zastosować wszelkie źródła ogólnej wspólnej zależności (takie jak trudna pogoda) - lub możesz po prostu ubezpieczyć się od takich zdarzeń, a nawet zignorować je, w zależności od okoliczności .
źródło
(Zignoruj mój wcześniejszy komentarz na ten temat - właśnie zdałem sobie sprawę, że mylę oczekiwania z czymś innym.) Biorąc pod uwagę, że zasadniczo próbujesz znaleźć oczekiwanie na liczbę osób, które się pojawią, możesz teoretycznie dodać prawdopodobieństwo każdej osoby pokazującej zrobić to.
Daje to jednak tylko oczekiwaną wartość - bez dalszych założeń wydawałoby się trudne oszacowanie takich rzeczy, jak wariancja pojawiających się osób, zwłaszcza że całkiem uczciwie jest założyć, że osoba A pojawiająca się niekoniecznie jest niezależna od osoby B pojawiającej się.
Poza tym, tutaj jest niejasny artykuł BBC.
źródło
W przypadku dużych liczb 80% jest tym, czego można oczekiwać. Może to być sytuacja, w której proponowana szczegółowa analiza dodaje tylko błędy do obliczeń.
Na przykład, czy potencjalna frekwencja Marca jest tak naprawdę 1/3 udziału Josepha? A czy Józef ma tak naprawdę 30%, czy może 25%? Dzieje się tak, gdy osiągniesz dużą liczbę, która sprawia, że 80% jest ważniejsze niż cała ta analiza. Właśnie wróciłem z wesela. 550 zaproszonych. 452 uczestników. Na potrzeby planowania hali i rozpoczęcia rozmowy z firmą cateringową wstępne szacunki na 440 były w porządku.
Czy mogę zaoferować linię od mojego tosty do pary? „Pamiętaj, że jeśli twoja żona jest szczęśliwa, ale nie jesteś szczęśliwa, nadal jesteś o wiele szczęśliwsza niż wtedy, gdy twoja żona jest nieszczęśliwa, ale jesteś szczęśliwa”.
źródło
Jako statystyk, który właśnie wziął ślub, powiem ci, że JoeTaxpayer ma właściwą odpowiedź. Liczba 80% wydaje mi się trochę wysoka, choć może być dokładna, jeśli większość ludzi jest lokalna (nasza była ślubem docelowym i wylądowaliśmy bliżej 65%).
Niemniej jednak zakładasz dużą zmienność wcześniejszych prawdopodobieństw, które ludzie biorą pod uwagę, myślę, że więcej niż naprawdę istnieje. Zakładając, że nie zapraszasz osób, które aktywnie cię nie lubią, powinieneś założyć, że prawie wszyscy przyjdą, dla których jest w ich zasięgu i nie będą mieli konfliktu (w szerokim znaczeniu), ale przynajmniej 10-20% BĘDĄ mieć coś, co powstrzyma ich przed uczestnictwem. Dla tych, którzy muszą podróżować, zwiększa to wymagany czas i pieniądze, więc liczba 30-35% podróżnych nie będzie uczestniczyć (w zależności od odległości). W przeciwnym razie utrzymuj prawdopodobieństwo na stałym poziomie (nawet jeśli twoi rodzice powiedzą: „och tacy a nie będą lecieć aż do Austin, chcemy je tylko zaprosić ...”). Jeśli masz fajny odbiór, zwłaszcza z otwartym barem, ludzie na ogół nie pominą tego, chyba że będą musieli.
W każdym razie gratuluję ślubu. Jeśli chodzi o prawdopodobieństwo pozostania w związku małżeńskim, zawsze warto przeczytać: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
źródło
Zsumuj wszystkie prawdopodobieństwa, a to spodziewana liczba osób, które przyjdą.
Oczywiście zakładamy, że to, czy ktoś przyjdzie, czy nie, nie zależy od obecności innych osób. To założenie jest po prostu błędne. Pomyślcie o parach, są bardzo skorelowane.
źródło
Na mój ślub sporządziłem dwie listy - prawdopodobne, że wezmę udział (80%) i mało prawdopodobne (20%). Niezależnie od jakiejkolwiek bardziej szczegółowej oceny z jakiegokolwiek powodu, przydzieliłem wszystkich zaproszonych do jednej z dwóch grup. Byłem wyłączony przez 2 osoby. N = 1. Czysto heurystyczny.
źródło
Zauważam, że nikt nie zauważył, że nie musisz dzielić przez 100. Twoje wartości procentowe mogą być postrzegane jako oczekiwane części osoby, która się pojawi, przy założeniu, że podobnie jak kot Schrödingera, nie dostaniesz części osoby w obecności lub nieobecności, ale stan obecności każdej osoby zostanie całkowicie rozwiązany w momencie zdarzenia.
Ponieważ przedział procentowy waha się od 0% (żadna osoba pokazująca się) do 100% (wszystkie osoby pokazujące się), w dwóch przykładach z udziałem 10 i 20 osób zsumowałeś oczekiwaną wartość dla części każdego osoba, która się pojawi, i dostała numer, którego jednostkami były „ludzie”.
Widoczne równanie w doskonałej odpowiedzi QuantIbex pokazuje, że zsumowanie procentów skutkuje oczekiwaną liczbą osób na imprezie, bez udziału podziału.
źródło