Załóżmy, że mam próbki z dwóch różnych populacji. Jeśli zmierzę, ile czasu zajmuje każdemu członkowi wykonanie zadania, mogę łatwo oszacować średnią i wariancję dla każdej populacji.
Jeśli teraz hipotetycznie sparuję jedną osobę z każdej populacji, czy mogę oszacować prawdopodobieństwo, że pierwsza jest szybsza niż druga?
Mam na myśli konkretny przykład: pomiary są dla mnie czasem jazdy rowerem od A do B, a populacje reprezentują różne trasy, którymi mógłbym się udać; Próbuję ustalić, jakie jest prawdopodobieństwo, że wybranie trasy A dla mojego następnego cyklu będzie szybsze niż wybranie trasy B. Kiedy faktycznie wykonam cykl, mam inny punkt danych dla mojego zestawu próbek :).
Zdaję sobie sprawę, że jest to strasznie uproszczony sposób, aby spróbować to rozwiązać, zwłaszcza dlatego, że w danym dniu wiatr bardziej wpływa na mój czas niż cokolwiek innego, więc daj mi znać, jeśli uważasz, że pytam złe pytanie ...
źródło
Odpowiedzi:
Rozwiązanie
Niech dwa środki być i μ Y i ich standardowe odchylenia być σ x i σ Y , odpowiednio. Różnica czasów między dwiema jazdami ( Y - X ) ma zatem średnią μ y - μ x i odchylenie standardowe √μx μy σx σy Y- X μy- μx . Znormalizowana różnica („wynik z”) wynosiσ2)x+ σ2)y------√
O ile czasy jazdy nie mają dziwnych rozkładów, szansa, że jazda trwa dłużej niż jazda X, jest w przybliżeniu normalnym skumulowanym rozkładem Φ , oszacowanym przy z .Y X Φ z
Obliczenie
Możesz obliczyć to prawdopodobieństwo na jednej z przejażdżek, ponieważ masz już oszacowania itp .:-). W tym celu można łatwo zapamiętać kilka wartości tonacji cp : cp ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0,022 ≈ 1 / 40 , i Φ ( - 3 ) ≈ 0,0013μx Φ Φ ( 0 ) = 0,5 = 1 / 2 Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 Φ(−2)≈0.022≈1/40 . (Przybliżenie może być słabe dla | z | znacznie większego niż 2 , ale znajomość Φ ( - 3 ) pomaga w interpolacji.) W połączeniu z Φ ( z ) = 1 - Φ ( - z ) i odrobiną interpolacji potrafi szybko oszacować prawdopodobieństwo do jednej znaczącej liczby, co jest więcej niż wystarczająco precyzyjne, biorąc pod uwagę charakter problemu i dane.Φ(−3)≈0.0013≈1/750 |z| 2 Φ(−3) Φ ( z) = 1 - Φ ( - z)
Przykład
Załóżmy, że trasa zajmuje 30 minut ze standardowym odchyleniem 6 minut, a trasa Y zajmuje 36 minut ze standardowym odchyleniem 8 minut. Przy wystarczającej ilości danych obejmujących szeroki zakres warunków histogramy danych mogą ostatecznie przybliżyć te:X Y
(Są to funkcje gęstości prawdopodobieństwa dla zmiennych Gamma (25, 30/25) i Gamma (20, 36/20). Zauważ, że są one zdecydowanie przekrzywione w prawo, jak można by się spodziewać w czasie jazdy.)
Następnie
Skąd
Mamy
Dlatego szacujemy, że odpowiedź wynosi 0,6 drogi między 0,5 a 0,84: 0,5 + 0,6 * (0,84 - 0,5) = około 0,70. (Prawidłowa, ale zbyt precyzyjna wartość dla rozkładu normalnego wynosi 0,73.)
Jest tam około 70% szans, że trasa będzie trwać dłużej niż trasy X . Wykonanie tych obliczeń w twojej głowie oderwie umysł od następnego wzgórza. :-)Y X
(Prawidłowe prawdopodobieństwo dla pokazanych histogramów wynosi 72%, mimo że żaden z nich nie jest normalny: ilustruje to zakres i użyteczność przybliżenia normalnego dla różnicy w czasach wyzwalania.)
źródło
Moje instynktowne podejście może nie jest najbardziej wyrafinowane statystycznie, ale może być dla ciebie zabawniejsze :)
Dostałbym przyzwoity arkusz papieru milimetrowego i podzieliłem kolumny na bloki czasowe. W zależności od długości przejażdżek - czy mówimy o średnim czasie 5 minut lub godziny - możesz użyć bloków o różnych rozmiarach. Powiedzmy, że każda kolumna to blok dwóch minut. Wybierz kolor dla trasy A i inny kolor dla trasy B, a po każdej jeździe zaznacz kropkę w odpowiedniej kolumnie. Jeśli jest już kropka tego koloru, przejdź o jeden wiersz w górę. Innymi słowy, byłby to histogram w liczbach bezwzględnych.
Następnie budowałbyś zabawny histogram przy każdej przejechanej trasie i możesz wizualnie zobaczyć różnicę między dwiema trasami.
W oparciu o moje własne doświadczenia z dojeżdżania rowerem (niepotwierdzone przez kwantyfikację) mam wrażenie, że czasy nie będą normalnie rozłożone - będą miały dodatnie przekrzywienie, czyli innymi słowy długi ogon górnych czasów. Mój typowy czas nie jest znacznie dłuższy niż mój najkrótszy możliwy czas, ale od czasu do czasu wydaje mi się, że uderzam we wszystkie czerwone światła, a górna granica jest znacznie wyższa. Twoje doświadczenie może być inne. Dlatego uważam, że podejście histogramu może być lepsze, abyś sam mógł obserwować kształt rozkładu.
PS: Nie mam wystarczającej liczby przedstawicieli, aby móc komentować na tym forum, ale uwielbiam odpowiedź Whubera! Bardzo skutecznie rozwiązuje moje obawy dotyczące skośności za pomocą analizy próbki. I podoba mi się pomysł obliczenia w głowie, aby oderwać myśli od następnego wzgórza :)
źródło
Suppose the two data sets areX and Y . Randomly sample one person from each population, giving you x,y . Record a '1' if x>y and 0 otherwise. Repeat this many times (say, 10000) and the mean of these indicators will give you an estimate of P(Xi>Yj) where i,j are randomly selected subjects from the two populations, respectively. In R, the code would go something like:
źródło
for
loop: letx1 = sample(X, 10000, replace = TRUE)
andy1 = sample(Y, 10000, replace = TRUE)
and then calculatemean(x1 > y1)
along withmean(x1 == y1)
- to get a sense of the # of times the values are equal.