Załóżmy, że masz ośmiu biegaczy, którzy prowadzą wyścig; rozkład ich poszczególnych czasów pracy jest Normalny, a każdy ma średnio sekund, powiedzmy. Standardowe odchylenie dla biegacza pierwszego jest najmniejsze, dwa drugie najmniejsze, trzecie najmniejsze itd., A osiem największe. Mylą mnie dwa pytania: (1) Jakie jest prawdopodobieństwo, że pierwszy wygra z ostatnim, i (2) kto najprawdopodobniej wygra wyścig?
Moje odpowiedzi są i odpowiednio. Ponieważ mają one taką samą średnią, prawdopodobieństwo, że jest tylko , nie? Jak mogę rygorystycznie zademonstrować drugą część i czy można obliczyć dokładne prawdopodobieństwo wygranej? Z góry dziękuję.
Odpowiedzi:
Chociaż nie można obliczyć dokładnego prawdopodobieństwa (z wyjątkiem szczególnych okoliczności zn ≤ 2 ), można je szybko obliczyć numerycznie z dużą dokładnością. Pomimo tego ograniczenia można rygorystycznie udowodnić, że biegacz z największym odchyleniem standardowym ma największą szansę na wygraną. Rysunek przedstawia sytuację i pokazuje, dlaczego ten wynik jest intuicyjnie oczywisty:
Pokazano gęstości prawdopodobieństwa dla czasów pięciu biegaczy. Wszystkie są ciągłe i symetryczne względem wspólnej średniejμ . (Zastosowano skalowane gęstości beta, aby upewnić się, że wszystkie czasy są dodatnie.) Jedna gęstość, narysowana na ciemnoniebiesko, ma znacznie większy zasięg. Widoczna część w lewym ogonie reprezentuje czasy, których żaden inny biegacz zwykle nie może dopasować. Ponieważ ten lewy ogon ze swoim stosunkowo dużym obszarem stanowi znaczne prawdopodobieństwo, biegacz o takiej gęstości ma największą szansę na wygraną w wyścigu. (Mają też największą szansę na wejście jako ostatnie!)
Wyniki te zostały udowodnione dla więcej niż tylko rozkładów normalnych: przedstawione tutaj metody odnoszą się równie dobrze do rozkładów symetrycznych i ciągłych. (Będzie to interesujące dla każdego, kto sprzeciwi się użyciu rozkładów normalnych do modelowania czasów pracy.) W przypadku naruszenia tych założeń może się zdarzyć, że biegacz z największym odchyleniem standardowym może nie mieć największej szansy na wygraną (pozostawiam konstrukcję kontrprzykładów na zainteresowani czytelnicy), ale nadal możemy udowodnić przy łagodniejszych założeniach, że biegacz z największym SD będzie miał najlepszą szansę na wygraną, pod warunkiem, że SD jest wystarczająco duży.
Rysunek sugeruje również, że takie same wyniki można uzyskać, biorąc pod uwagę jednostronne analogi odchylenia standardowego (tak zwana „półwariancja”), które mierzą rozproszenie rozkładu tylko na jedną stronę. Biegacz z dużym rozproszeniem w lewo (w stronę lepszych czasów) powinien mieć większą szansę na wygraną, niezależnie od tego, co stanie się w pozostałej części dystrybucji. Te rozważania pomagają nam docenić, jak własność bycia najlepszym (w grupie) różni się od innych właściwości, takich jak średnie.
Niech będą losowymi zmiennymi reprezentującymi czasy biegaczy. Pytanie zakłada, że są one niezależne i normalnie rozmieszczone ze wspólną średnią μ . (Chociaż jest to dosłownie niemożliwy model, ponieważ daje pozytywne prawdopodobieństwa dla czasów ujemnych, nadal może być rozsądnym przybliżeniem do rzeczywistości, pod warunkiem, że odchylenia standardowe są znacznie mniejsze niż μ .)X1, … , Xn μ μ
Aby przeprowadzić następujący argument, zachowaj domniemanie niezależności, ale w innym przypadku załóż, że rozkłady są podane przez F i że te prawa dystrybucji mogą być dowolne. Dla wygody załóżmy, że rozkład F n jest ciągły z gęstością f n . Później, w razie potrzeby, możemy zastosować dodatkowe założenia, pod warunkiem że obejmują przypadek rozkładów normalnych.Xja faja fan fan
Dla dowolnego i nieskończenie d y , szansa, że ostatni zawodnik ma czas w przedziale ( y - d y , y ] i jest najszybszym biegaczem otrzymuje się przez pomnożenie wszystkich odpowiednich prawdopodobieństw (bo cały czas są niezależne):y rey (y−dy,y]
Integracja wszystkich tych wzajemnie wykluczających się możliwości daje
W przypadku rozkładów normalnych tej całki nie można oszacować w formie zamkniętej, gdy : wymaga oceny numerycznej.n>2
Ta figura przedstawia całkę dla każdego z pięciu biegaczy posiadających standardowe odchylenia w stosunku 1: 2: 3: 4: 5. Im większy SD, tym bardziej funkcja jest przesunięta w lewo - i tym większy staje się jej obszar. Obszary wynoszą około 8: 14: 21: 26: 31%. W szczególności biegacz z największym SD ma 31% szans na wygraną.
Chociaż nie można znaleźć zamkniętej formy, nadal możemy wyciągnąć solidne wnioski i udowodnić, że biegacz z największym SD najprawdopodobniej wygra. Musimy uczyć się, co dzieje się jako odchylenie standardowe jednego z rozkładów, powiedzmy zmiany,. Gdy zmienna losowa X n jest przeskalowana o σ > 0 wokół jej średniej, jej SD jest mnożona przez σ i f n ( y ) d y zmieni się na f n ( y / σ ) d y / σFn Xn σ>0 σ fn(y)dy fn(y/σ)dy/σ . Dokonanie zmiany zmiennej w całce daje wyrażenie szansy na wygraną biegacza n , w funkcji σ :y=xσ n σ
Przypuśćmy teraz, że środkowe wszystkich dystrybucji są równe, że wszystkie rozkłady są symetryczne i ciągłe, o gęstości f I . (Z pewnością tak jest w warunkach pytania, ponieważ średnia Mediana normalna jest jego średnią.) Przez prostą (lokalizacyjną) zmianę zmiennej możemy założyć, że ta wspólna mediana wynosi 0 ; symetria oznacza f n ( y ) = f n ( - y ) i 1 - F j ( - y ) = F j ( yn fi 0 fn(y)=fn(−y) 1−Fj(−y)=Fj(y) for all y . These relationships enable us to combine the integral over (−∞,0] with the integral over (0,∞) to give
The functionϕ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form
fori=1,2,…,n−1 .
The assumptions we made about the distributions were designed to assure thatFj(x)≥1−Fj(x) for x≥0 . Thus, since x=yσ≥0 , each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors yfn(y)fi(yσ) are clearly nonnegative because densities cannot be negative and y≥0 . We may conclude that ϕ′(σ)≥0 for σ≥0 , proving that the chance that player n wins increases with the standard deviation of Xn .
This is enough to prove that runnern will win provided the standard deviation of Xn is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the Xi are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to 1/n ). Start by setting all distributions to that of runner n . Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that n wins cannot decrease, while the chances of all the other runners have decreased. Consequently, n has the greatest chances of winning, QED.
źródło