Mam zakład ze współpracownikiem, że na 50 gier w ping ponga (najpierw zdobędę 21 punktów, wygrywam 2) wygram wszystkie 50. Do tej pory rozegraliśmy 15 gier i średnio wygrywam 58% punkty, a ponadto wygrałem wszystkie gry do tej pory. Zastanawiamy się więc, czy mam 58% szansy na zdobycie punktu, a on ma 42% szansy na zdobycie punktu. Jaka jest procentowa szansa na wygraną? Czy istnieje wzór, w którym możemy podłączyć różnicy% szans?
Poszukiwaliśmy się na całym świecie, a nawet pytamy badaczy danych w naszej firmie, ale nie możemy znaleźć prostej odpowiedzi.
Edycja: Wow, zachwyca mnie dokładność odpowiedzi. Bardzo dziękuje Wam wszystkim!!! Jeśli ludzie są ciekawi, mam aktualizację dotyczącą mojego zakładu: wygrałem 18 z 50 gier, więc muszę wygrać jeszcze 32 gry. Wygrałem 58,7% wszystkich punktów, dlatego mój przeciwnik zdobył 41,3% punktów. Standardowe odchylenie dla mojego przeciwnika wynosi 3,52, jego średni wynik to 14,83, a jego mediana - 15,50. Poniżej znajduje się zrzut ekranu z dotychczasowych wyników każdej gry. Mogę aktualizować w miarę postępu zakładu, jeśli ludzie są zainteresowani.
Edycja nr 2 : Niestety, mogliśmy zagrać tylko w kilka innych gier, poniżej są wyniki. Zamierzam nadal wymieniać obraz, żeby nie mam kilku zrzutów ekranu z partytury.
Ostatnia aktualizacja : W końcu przegrałem ze współpracownikiem w grze nr 28. Pokonał mnie 21-13. Dzięki za całą twoją pomoc!
źródło
Odpowiedzi:
Analizę komplikuje perspektywa, że gra przechodzi w „dogrywkę”, aby wygrać o margines co najmniej dwóch punktów. (W przeciwnym razie byłoby to tak proste, jak rozwiązanie pokazane na https://stats.stackexchange.com/a/327015/919 .) Pokażę, jak wizualizować problem i wykorzystać go do rozbicia go na łatwo obliczone wkłady do odpowiedź. Wynik, choć nieco niechlujny, jest wykonalny. Symulacja potwierdza jej poprawność.
Niech będzie twoim prawdopodobieństwem wygrania punktu.p Załóż, że wszystkie punkty są niezależne. Szansa na wygraną może zostać podzielona na (nie nakładające się) wydarzenia zgodnie z liczbą punktów, jaką ma przeciwnik na końcu, zakładając, że nie przejdziesz do dogrywki ( ) lub przejdziesz do dogrywki . W tym drugim przypadku jest (lub stanie się) oczywiste, że na pewnym etapie wynik wynosił 20-20.0,1,…,19
Jest ładna wizualizacja. Niech wyniki w trakcie gry będą wykreślane jako punkty gdzie to twój wynik, a to wynik twojego przeciwnika. W trakcie gry wyniki przesuwają się wzdłuż siatki liczb całkowitych w pierwszym kwadrancie, rozpoczynając od , tworząc ścieżkę gry . Kończy się za pierwszym razem, gdy jeden z was zdobył przynajmniej punktów i ma margines co najmniej . Takie zwycięskie punkty tworzą dwa zestawy punktów, „granicę pochłaniającą” tego procesu, gdy ścieżka gry musi się zakończyć.x y ( 0 , 0 ) 21 2(x,y) x y (0,0) 21 2
Ta figura pokazuje część pochłaniającej granicy (rozciąga się nieskończenie w górę i w prawo) wraz ze ścieżką gry, która przeszła w nadgodziny (niestety dla ciebie przegrana).
Policzmy. Liczba sposobów, w jakie gra może zakończyć się punktami dla przeciwnika, to liczba różnych ścieżek w sieci liczb całkowitych wyników rozpoczynających się od początkowego wyniku i kończących się na przedostatnim wyniku . Takie ścieżki zależą od tego, który z ponad punktów w wygranej grze. Odpowiadają zatem podzbiorom rozmiaru o liczbach , a jest ich . Ponieważ na każdej takiej ścieżce zdobyłeś punktów (z niezależnymi prawdopodobieństwami każdym razem, licząc ostatni punkt), a twój przeciwnik wygrał( x , y ) ( 0 , 0 ) ( 20 , y ) 20 + y 20 1 , 2 , … , 20 + yy (x,y) (0,0) (20,y) 20+y 20 1,2,…,20+y (20+y20) 21 p y Punkty (z niezależnymi prawdopodobieństwami każdym razem), ścieżki powiązane z stanowią całkowitą szansę na1−p y
Podobnie istnieją na reprezentujące remis 20-20. W tej sytuacji nie masz określonej wygranej. Możemy obliczyć szansę na twoją wygraną, przyjmując wspólną konwencję: zapomnij ile punktów zostało zdobytych do tej pory i zacznij śledzić różnicę punktów. Różnica w grze wynosi i zakończy się, gdy najpierw osiągnie lub , koniecznie przechodząc przez po drodze. Niech będzie szansą na wygraną, gdy różnica wynosi .(20+2020) (20,20) 0 +2 −2 ±1 g(i) i∈{−1,0,1}
Ponieważ Twoja szansa na wygraną w dowolnej sytuacji wynosi , mamyp
Unikalne rozwiązanie tego układu równań liniowych dla wektora implikuje(g(−1),g(0),g(1))
To jest Twoja szansa na wygraną po osiągnięciu (co występuje z szansą ).(20,20) (20+2020)p20(1−p)20
W rezultacie twoja szansa na wygraną jest sumą wszystkich tych rozłącznych możliwości, równych
Rzeczy w nawiasach po prawej to wielomian w . (Wygląda na to, że jego stopień to , ale wszystkie wiodące warunki anulują: jego stopień to ).p 21 20
Gdy , szansa na zwycięstwo jest bliskap=0.58 0.855913992.
Nie powinieneś mieć problemów z uogólnieniem tej analizy na gry, które kończą się dowolną liczbą punktów. Gdy wymagany margines jest większy niż wynik staje się bardziej skomplikowany, ale równie prosty.2
Nawiasem mówiąc , przy tych szansach na wygraną miałeś szansy na wygranie pierwszych gier. Nie jest to niespójne z tym, co zgłaszasz, co może zachęcić nas do dalszego zakładania, że wyniki każdego punktu są niezależne. W ten sposób przewidujemy, że masz szansę(0.8559…)15≈9.7% 15
wygrać wszystkie pozostałe gier, zakładając, że będą postępować zgodnie z tymi wszystkimi założeniami. To nie brzmi jak dobry zakład, chyba że wypłata jest duża!35
Lubię sprawdzać taką pracę za pomocą szybkiej symulacji. Oto
R
kod generujący dziesiątki tysięcy gier na sekundę. Zakłada się, że gra zakończy się w ciągu 126 punktów (bardzo niewiele gier musi trwać tak długo, więc to założenie nie ma istotnego wpływu na wyniki).Kiedy to uruchomiłem, wygrałeś w 8570 przypadkach z 10 000 iteracji. Wynik Z (w przybliżeniu rozkład normalny) można obliczyć w celu przetestowania takich wyników:
Wartość w tej symulacji jest całkowicie zgodna z powyższym obliczeniem teoretycznym.0.31
Załącznik 1
W świetle aktualizacji pytania, które wymienia wyniki pierwszych 18 gier, oto rekonstrukcje ścieżek gier zgodne z tymi danymi. Widać, że dwie lub trzy gry były niebezpiecznie blisko strat. (Każda ścieżka kończąca się na jasnoszarym kwadracie jest dla ciebie stratą).
Potencjalne zastosowania tej liczby obejmują obserwację:
Ścieżki koncentrują się wokół nachylenia określonego przez stosunek 267: 380 całkowitych wyników, równy w przybliżeniu 58,7%.
Rozproszenie ścieżek wokół tego nachylenia pokazuje oczekiwaną zmienność, gdy punkty są niezależne.
Jeśli punkty są wykonane w postaci pasm, wówczas pojedyncze ścieżki mają tendencję do posiadania długich odcinków pionowych i poziomych.
W dłuższym zestawie podobnych gier spodziewaj się ścieżek, które mają tendencję do pozostawania w obrębie kolorowego zakresu, ale spodziewaj się, że kilka z nich będzie dalej.
Perspektywa gry lub dwóch, których ścieżka leży zasadniczo powyżej tego spreadu, wskazuje na możliwość, że twój przeciwnik ostatecznie wygra grę, prawdopodobnie wcześniej niż później.
Załącznik 2
Zażądano kodu do utworzenia figury. Tutaj jest (wyczyszczony, aby uzyskać nieco ładniejszą grafikę).
źródło
r code
ujawnienia dotyczącego implementacji? Wielkie dzięki.Korzystanie z rozkładu dwumianowego i zakładanie, że każdy punkt jest niezależny:
Prawdopodobieństwo, że gracz osiągnie w pierwszych punktach (biorąc pod uwagę fakt, że ostatni punkt musi zostać wygrany) to58% 21 40 ∑40n=21(n−120)0.58210.42n−21 =∑40k=21(40k)0.58k0.4240−k ≈0.80695
Prawdopodobieństwo, że gracz otrzyma z rozegranych punktów, to dwumianowy . prawdopodobieństwo wygranej przez gracza z dwupunktowym marginesem wynosi58% 20 40 (4020)0.58200.4220≈0.074635 58% 0.5820.582+0.422≈0.656006
Ogólne prawdopodobieństwo wygranej przez gracza wynosi około0,80695 + 0,074635 × 0,656006 ≈ 0,855958% 0.80695+0.074635×0.656006 ≈0.8559
Prawdopodobieństwo wygrania przez pierwszych gier wynosi około co jest dość mało prawdopodobne. Prawdopodobieństwo wygrania przez graczy w ostatnich grach wynosi około co jest bardzo mało prawdopodobne. 15 0,85559 15 ≈ 0,0969 58 % 35 0,85559 35 ≈ 0,004358% 15 0.8555915≈0.0969 58% 35 0.8555935≈0.0043
źródło
Poszedłem z odpowiedzią obliczeniową. Oto funkcja R, która symuluje grę w ping-ponga, w której zwycięzca musi wygrać o 2. Jedynym argumentem jest prawdopodobieństwo wygrania punktu. Zwróci końcowy wynik tej gry:
Najpierw upewnijmy się, że działa, symulując 10 000 gier, w których masz 50% szans na zdobycie każdego punktu. Powinniśmy zauważyć, że Twój procent wygranych wynosi około 50%:
Zwraca .4955, o tym, czego byśmy się spodziewali. Podłączmy więc 58%:
Zwraca 0,8606. Masz około 86,06% szans na wygraną w jednej grze.
Możemy teraz przeprowadzić symulację w 35 partiach gry i zobaczyć, ile razy wygrałbyś wszystkie 35:
Zwraca 0,0037, co oznacza, że masz około 0,37% szansy na wygranie następnych 35 gier. Zakłada się, że wszystkie gry i wszystkie punkty są od siebie niezależne. Możesz to zaprogramować bezpośrednio w powyższej funkcji, jeśli chcesz.
Uwaga: robię to w locie. Jestem pewien, że istnieje bardziej wydajny obliczeniowo sposób programowania.
źródło
pbetterwins <- pbinom(19,40,0.42) + dbinom(20,40,0.42) * 0.58^2/(0.58^2+0.42^2); pbetterwins; pbetterwins^35
wykonać obliczenia przy użyciu rozkładu dwumianowego. Wystarczająco blisko twojej symulacjiCzy należy założyć, że 58% szans na wygraną jest stałe i że punkty są niezależne?
Uważam, że odpowiedź Whubera jest dobra , pięknie napisana i wyjaśniona, gdy bierze się pod uwagę, że każdy punkt jest niezależny od następnego . Uważam jednak, że w praktyce jest to tylko ciekawy punkt wyjścia (teoretyczny / wyidealizowany). Wyobrażam sobie, że w rzeczywistości punkty nie są od siebie niezależne, a to może sprawić, że prawdopodobieństwo, że twój przeciwnik współpracownika wygra co najmniej raz na 50, może być mniej lub bardziej prawdopodobne.
Na początku wyobrażałem sobie, że zależność punktów byłaby procesem losowym , tj. Nie kontrolowanym przez graczy (np. Gdy ktoś wygrywa lub przegrywa inaczej), a to powinno stworzyć większe rozproszenie wyników, z których korzystniej będzie mieć mniejszy gracz ten jeden punkt na pięćdziesiąt.
Druga myśl może jednak sugerować coś przeciwnego : fakt, że „osiągnąłeś” coś z 9,7% szansy, może dać pewne (ale tylko nieznaczne) korzyści, z punktu widzenia bayesowskiego, pomysłom na faworyzowanie mechanizmów, które prowadzą do wygrać więcej niż 85% prawdopodobieństwa wygrania gry (lub przynajmniej zmniejszyć prawdopodobieństwo, że przeciwnik ma znacznie wyższe prawdopodobieństwo niż 15%, jak argumentowano w dwóch poprzednich akapitach). Na przykład może się zdarzyć, że zdobędziesz lepszy wynik, gdy twoja pozycja jest gorsza (nie jest dziwne, że ludzie zdobywają znacznie więcej punktów meczowych, na korzyść lub przeciw, niż na zwykłych punktach). Możesz poprawić szacunki 85%, biorąc pod uwagę te dynamiki i być może masz ponad 85% prawdopodobieństwa wygrania gry.
Tak czy inaczej , użycie tej prostej statystyki punktowej do udzielenia odpowiedzi może być bardzo błędne . Tak, możesz to zrobić, ale nie będzie to właściwe, ponieważ przesłanki (niezależność punktów) niekoniecznie są poprawne i mają duży wpływ na odpowiedź . Statystyka 42/58 to więcej informacji, ale nie wiemy zbyt dobrze, jak z niej korzystać (poprawność modelu), a wykorzystanie informacji może dostarczyć odpowiedzi z dużą precyzją, której tak naprawdę nie ma.
Przykład
Przykład: równie rozsądny model o zupełnie innym wyniku
Tak więc hipotetyczne pytanie (zakładając niezależne punkty i znane teoretyczne prawdopodobieństwa dla tych punktów) jest samo w sobie interesujące i można na nie odpowiedzieć, ale po prostu być denerwujące i sceptyczne / cyniczne; odpowiedź na hipotetyczny przypadek nie odnosi się tak bardzo do twojego podstawowego / pierwotnego problemu i może być powodem, dla którego statystycy / naukowcy z twojej firmy niechętnie udzielają prostej odpowiedzi.
Wystarczy podać alternatywny przykład (niekoniecznie lepszy), który zawiera mylące (kontr-) stwierdzenie „P: jakie jest prawdopodobieństwo wygrania wszystkich 50 gier, jeśli wygrałem już 15?”. Jeśli nie zaczniemy myśleć, że „wyniki punktowe 42/58 są istotne lub dają nam lepsze prognozy”, zaczniemy przewidywać prawdopodobieństwo wygrania gry i przewidywania dotyczące wygrania kolejnych 35 gier wyłącznie na podstawie wcześniej wygranej 15 gier:
co oznacza, że nie byłbym tak pesymistyczny jak bezpośrednia prognoza 0,432% Fakt, że wygrałeś już 15 gier, powinien zwiększyć prawdopodobieństwo wygrania kolejnych 35 gier.
Uwaga na podstawie nowych danych
Na podstawie twoich danych dla 18 gier próbowałem dopasować model dwumianowy. Zmienianie i i obliczanie prawdopodobieństwa, aby dostać się do wyniku i, 21 (via i, 20) lub wyniku 20,20, a następnie zsumować ich logi do wynik logarytmu wiarygodności.α=μν β=(1−μ)ν
To pokazuje, że bardzo wysoki parametr (małe rozproszenie w leżącym u jego podstaw rozkładzie beta) ma większe prawdopodobieństwo, a zatem prawdopodobnie występuje niewielkie nadmierne rozproszenie. Oznacza to, że dane nie sugerują, że lepiej jest użyć zmiennego parametru dla prawdopodobieństwa wygrania punktu, zamiast ustalonej 58% szansy na wygraną. Te nowe dane zapewniają dodatkowe wsparcie dla analizy Whubera, która zakłada wyniki oparte na rozkładzie dwumianowym. Ale oczywiście nadal zakłada to, że model jest statyczny, a także, że ty i twój współpracownik zachowujesz się zgodnie z modelem losowym (w którym każda gra i punkt są niezależne).ν
Oszacowanie maksymalnego prawdopodobieństwa dla parametrów rozkładu beta zamiast stałej szansy na wygraną 58%:
P: Jak odczytać wykres „LogLikelihood dla parametrów mu i nu”?
ZA:
kod / obliczenia dla wykresu 1
kod / obliczenia dla wykresu 2
źródło
Wiele wysiłku można by poświęcić na stworzenie idealnego modelu. Ale czasami zły model jest lepszy. I nic nie mówi o złym modelu, takim jak centralne twierdzenie graniczne - wszystko jest krzywą normalną.
Zignorujemy „nadgodziny”. Będziemy modelować sumę poszczególnych punktów jako normalną krzywą. Będziemy modelować, grając w 38 rund, a kto zdobędzie najwięcej punktów, wygrywa, zamiast najpierw do 20. Jest to całkiem podobna gra!
I na ślepo twierdzę, że zbliżamy się do właściwej odpowiedzi.
Niech będzie rozkładem punktu. ma wartość 1, gdy otrzymasz punkt, a 0, gdy nie.X X
Zatem = ~ i = = ~ .E(X) 0.58 Var(X) E(X)∗(1−E(X)) 0.24
Jeśli to niezależne punkty, to to punkty, które otrzymasz po rozegraniu 38 rund.Xi ∑38i=1Xi
X 9.12Var(∑38i=1Xi) = 38 * Var ( ) = ~X 9.12
i = = ~√SD(∑38i=1Xi) 3,0238∗Var(X))−−−−−−−−−−−√ 3.02
W naszym surowym modelu przegrywamy, jeśli i wygrywamy, jeśli .∑ 38 i = 1 X i > 19∑38i=1Xi<19 ∑38i=1Xi>19
1,0115,62%22.04−193.02 jest odchylenia standardowe od średniej, co przekłada się na o szansy na niepowodzenie po konsultacji z wykresu score .1.01 15.62%
Jeśli porównamy z bardziej rygorystycznymi odpowiedziami, jest to około zniżki od prawidłowej wartości.1%
Na ogół lepiej byłoby sprawdzić wiarygodność szansy na zwycięstwo w wysokości niż bardziej rygorystyczny model, który zakłada szansę na i idealnie go modeluje.58 %58% 58%
źródło
Na podstawie symulacji wygląda na to, że prawdopodobieństwo wygrania dowolnej gry wynosi około 85,5%.
Prawdopodobieństwo wygranej o dokładnie 2 (tak czytam tytuł, ale wydaje się, że nie o to pytasz) wynosi około 10,1%.
Uruchom poniższy kod.
źródło
dbinom(20,40,0.58)*0.58^2/(1-2*0.58+2*0.58^2)+dbinom(20,39,0.58)*0.58
daje 10,04%