Jak mogę oszacować prawdopodobieństwo, że losowy członek z jednej populacji będzie „lepszy” niż losowy członek z innej populacji?

15

Załóżmy, że mam próbki z dwóch różnych populacji. Jeśli zmierzę, ile czasu zajmuje każdemu członkowi wykonanie zadania, mogę łatwo oszacować średnią i wariancję dla każdej populacji.

Jeśli teraz hipotetycznie sparuję jedną osobę z każdej populacji, czy mogę oszacować prawdopodobieństwo, że pierwsza jest szybsza niż druga?

Mam na myśli konkretny przykład: pomiary są dla mnie czasem jazdy rowerem od A do B, a populacje reprezentują różne trasy, którymi mógłbym się udać; Próbuję ustalić, jakie jest prawdopodobieństwo, że wybranie trasy A dla mojego następnego cyklu będzie szybsze niż wybranie trasy B. Kiedy faktycznie wykonam cykl, mam inny punkt danych dla mojego zestawu próbek :).

Zdaję sobie sprawę, że jest to strasznie uproszczony sposób, aby spróbować to rozwiązać, zwłaszcza dlatego, że w danym dniu wiatr bardziej wpływa na mój czas niż cokolwiek innego, więc daj mi znać, jeśli uważasz, że pytam złe pytanie ...

Andrew Aylett
źródło
Można to zrobić za pomocą prostych testów dwumianowych, a @Macro ma dobrą odpowiedź. Jedna kwestia dotyczy jednak samych próbek: czy jest coś, co może wpłynąć na decyzję o wybraniu trasy A lub trasy B? W szczególności, czy lubisz jechać trasą A, gdy drogi są suche, wiatr wisi ci na plecach i czeka obiad? :) Uważaj tylko na wszystko, co może wpłynąć na wartości odstające w obu zestawach lub może w jakiś sposób wpłynąć na odchylenie próbek. Na przykład spróbuj z wyprzedzeniem przygotować plan próbkowania, biorąc pod uwagę każdą potrzebę zmiany (np. Bezpieczeństwo).
Iterator
Jeszcze jedna uwaga: załóżmy, że masz dwie trasy o bardzo podobnych środkach i żadna z nich nie dominuje pod względem prawdopodobieństwa, że ​​będzie szybsza. Np. Jedna trwa zawsze 10 lub 20 minut, a druga zawsze dokładnie 15 minut. Lepszym rozwiązaniem może być karanie większej niepewności (np. Odchylenie standardowe) lub faworyzowanie takiej, która z większym prawdopodobieństwem zajmie mniej niż pewien próg czasu. Twoje pytanie jest w porządku; Sugeruję jedynie udoskonalenie w przyszłości.
Iterator,
Pytanie statystyczne jest w porządku, ale jeśli chcesz ustalić prawdopodobieństwo, która trasa jest szybsza, proponuję zmierzyć długości tras. Jeśli teren nie jest pagórkowaty, krótsza trasa zawsze będzie szybsza.
mpiktas,
Jeśli wiatr jest ważnym czynnikiem i jeśli prędkości wiatru są powiązane dla dwóch tras, wydaje się, że osoba potrzebuje informacji o zależności między A i B, aby odpowiedzieć na pytanie dokładnie. Potrzebne byłyby do tego dane dwuwymiarowe i trudno jest pokonać dwie ścieżki jednocześnie. Możesz poprosić kogoś innego o pomoc w zbieraniu danych, ale wtedy będziesz musiał wziąć pod uwagę zmienność między jeźdźcami. W przypadku, gdy A i B są niezależne, poniższe odpowiedzi są świetne.
Innymi słowy: jeśli próbuję zdecydować, którą ścieżkę wybrać, przejść przez tunel, przejść przez pole, a wiatr wieje jak szalony, bardzo dobrze wybiorę pole, nawet jeśli średnio potwornie gorzej.

Odpowiedzi:

12

Rozwiązanie

Niech dwa środki być i μ Y i ich standardowe odchylenia być σ x i σ Y , odpowiednio. Różnica czasów między dwiema jazdami ( Y - X ) ma zatem średnią μ y - μ x i odchylenie standardowe μxμyσxσyY-Xμy-μx . Znormalizowana różnica („wynik z”) wynosiσx2)+σy2)

z=μy-μxσx2)+σy2).

O ile czasy jazdy nie mają dziwnych rozkładów, szansa, że ​​jazda trwa dłużej niż jazda X, jest w przybliżeniu normalnym skumulowanym rozkładem Φ , oszacowanym przy z .YXΦz

Obliczenie

Możesz obliczyć to prawdopodobieństwo na jednej z przejażdżek, ponieważ masz już oszacowania itp .:-). W tym celu można łatwo zapamiętać kilka wartości tonacji cp : cp ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , i Φ ( - 3 ) 0,0013μxΦΦ(0)=.5=1/2)Φ(-1)0,161/6Φ(2)0.0221/40 . (Przybliżenie może być słabe dla | z | znacznie większego niż 2 , ale znajomość Φ ( - 3 ) pomaga w interpolacji.) W połączeniu z Φ ( z ) = 1 - Φ ( - z ) i odrobiną interpolacji potrafi szybko oszacować prawdopodobieństwo do jednej znaczącej liczby, co jest więcej niż wystarczająco precyzyjne, biorąc pod uwagę charakter problemu i dane.Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1-Φ(-z)

Przykład

Załóżmy, że trasa zajmuje 30 minut ze standardowym odchyleniem 6 minut, a trasa Y zajmuje 36 minut ze standardowym odchyleniem 8 minut. Przy wystarczającej ilości danych obejmujących szeroki zakres warunków histogramy danych mogą ostatecznie przybliżyć te:XY

Dwa histogramy

(Są to funkcje gęstości prawdopodobieństwa dla zmiennych Gamma (25, 30/25) i Gamma (20, 36/20). Zauważ, że są one zdecydowanie przekrzywione w prawo, jak można by się spodziewać w czasie jazdy.)

Następnie

μx=30,μy=36,σx=6,σy=8

Skąd

z=36-3062)+82)=0,6

Mamy

Φ(0)=0,5;Φ(1)=1-Φ(-1)1-0,16=0,84.

Dlatego szacujemy, że odpowiedź wynosi 0,6 drogi między 0,5 a 0,84: 0,5 + 0,6 * (0,84 - 0,5) = około 0,70. (Prawidłowa, ale zbyt precyzyjna wartość dla rozkładu normalnego wynosi 0,73.)

Jest tam około 70% szans, że trasa będzie trwać dłużej niż trasy X . Wykonanie tych obliczeń w twojej głowie oderwie umysł od następnego wzgórza. :-)YX

(Prawidłowe prawdopodobieństwo dla pokazanych histogramów wynosi 72%, mimo że żaden z nich nie jest normalny: ilustruje to zakres i użyteczność przybliżenia normalnego dla różnicy w czasach wyzwalania.)

Whuber
źródło
P.(X>Y)
@Macro: jeśli dane można sprowadzić do statystyk podsumowujących Q zainteresowania, można zapisać mniej danych ... tylko myśl.
Iterator
Przepraszam, mój mózg był smażony przez upał i przegapiłem oczywistą odpowiedź. Każdy z was odpowiada na inne pytania. Podana metoda ładowania początkowegoP.(X>Y), while @whuber is considering the difference in the mean times, which isn't the same. It isn't too hard to construct a case where option Y is shorter than option X 60% of the time, but the mean for Y is greater than the mean for X.
Iterator
FWIW: @whuber is describing Student's t-test for the difference in means between two samples with different standard deviations.
Iterator
1
Thanks, @whuber, this is the answer to the question I'd been trying to ask :).
Andrew Aylett
6

Moje instynktowne podejście może nie jest najbardziej wyrafinowane statystycznie, ale może być dla ciebie zabawniejsze :)

Dostałbym przyzwoity arkusz papieru milimetrowego i podzieliłem kolumny na bloki czasowe. W zależności od długości przejażdżek - czy mówimy o średnim czasie 5 minut lub godziny - możesz użyć bloków o różnych rozmiarach. Powiedzmy, że każda kolumna to blok dwóch minut. Wybierz kolor dla trasy A i inny kolor dla trasy B, a po każdej jeździe zaznacz kropkę w odpowiedniej kolumnie. Jeśli jest już kropka tego koloru, przejdź o jeden wiersz w górę. Innymi słowy, byłby to histogram w liczbach bezwzględnych.

Następnie budowałbyś zabawny histogram przy każdej przejechanej trasie i możesz wizualnie zobaczyć różnicę między dwiema trasami.

W oparciu o moje własne doświadczenia z dojeżdżania rowerem (niepotwierdzone przez kwantyfikację) mam wrażenie, że czasy nie będą normalnie rozłożone - będą miały dodatnie przekrzywienie, czyli innymi słowy długi ogon górnych czasów. Mój typowy czas nie jest znacznie dłuższy niż mój najkrótszy możliwy czas, ale od czasu do czasu wydaje mi się, że uderzam we wszystkie czerwone światła, a górna granica jest znacznie wyższa. Twoje doświadczenie może być inne. Dlatego uważam, że podejście histogramu może być lepsze, abyś sam mógł obserwować kształt rozkładu.

PS: Nie mam wystarczającej liczby przedstawicieli, aby móc komentować na tym forum, ale uwielbiam odpowiedź Whubera! Bardzo skutecznie rozwiązuje moje obawy dotyczące skośności za pomocą analizy próbki. I podoba mi się pomysł obliczenia w głowie, aby oderwać myśli od następnego wzgórza :)

Jonathan
źródło
1
+1 za kreatywność. W rzeczywistości twój pomysł jest na drodze do praktycznej użyteczności. O wiele bardziej interesujące byłoby skorzystanie z jednej ze stron śledzenia rowerów (teraz zapominam, która z nich jest dostępna, ale dodaję, jeśli wiesz), aby śledzić czasy segmentów. Gdyby OP powrócił do CV lub StackOverflow z pytaniem o wykreślanie czasu segmentu i uzyskać związaną z nim gęstość, byłoby to fantastyczne ćwiczenie statystyczne - GIS, wizualizacja statystyczna i funkcje gęstości, o rany! :)
Iterator
1
Korzystałem z Google MyTracks w telefonie, aby śledzić segmenty rowerowe. Uważam, że telefon nie jest w tym świetny, ponieważ ma tendencję do zużywania energii na urządzeniu, które nie jest dla niego zoptymalizowane. Garmin (i inni) sprawiają, że urządzenia GPS są specjalnie ukierunkowane na biegaczy i rowerzystów, aby śledzić czas spędzony na trasach i zapewniać czyste mapy w interfejsie online. Nie korzystam z dedykowanego urządzenia GPS, ale niektórzy z moich znajomych używają ich do udostępniania tras na Facebooku.
Jonathan
1
Oto przykład tego, co produkuje urządzenie Garmin. Problem z wykresami polega na tym, że są one już mocno wstępnie przetworzone, wygładzone itp. Nie ma również wygodnego sposobu importowania danych na przykład do R. Ale jako urządzenie dedykowane świetnie sobie radzi, nie wyobrażam sobie bez niego biegania lub jazdy na rowerze.
mpiktas,
+1 Zauważ, że niewiele pochylenia pochodzi z uderzenia w czerwone światła (chyba że są one ustawione w czasie): zbiorowo zwykle dodają tylko trochę szumu gaussowskiego do rozkładu czasu. (Obliczanie jego wariancji jest kolejnym ćwiczeniem umysłowym, które można wykonać na następnym wzgórzu.) W praktyce pochyłość pochodzi od niegaussowskiej zmienności w kilku ważnych czynnikach, które kontrolują całą jazdę: pogoda, jak się czujesz, z kim „
jechać
Now that I think about it some more, another very important factor is the time of day. The traffic lights act very differently at peak traffic times - much longer greens for the higher-traffic road. In off-peak times, the lights tend to cycle quickly, defaulting to green for the high-traffic road, but quickly changing when I press the crossing button or a car activates the sensor.
Jonathan
5

Suppose the two data sets are X and Y. Randomly sample one person from each population, giving you x,y. Record a '1' if x>y and 0 otherwise. Repeat this many times (say, 10000) and the mean of these indicators will give you an estimate of P(Xi>Yj) where i,j are randomly selected subjects from the two populations, respectively. In R, the code would go something like:

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)
Macro
źródło
This is a good answer, but you could simplify it by removing the for loop: let x1 = sample(X, 10000, replace = TRUE) and y1 = sample(Y, 10000, replace = TRUE) and then calculate mean(x1 > y1) along with mean(x1 == y1) - to get a sense of the # of times the values are equal.
Iterator
Dzięki. Wiedziałem, że pętla jest niepotrzebna, ale chciałem, aby logika leżąca u podstaw tego podejścia była całkowicie jasna. Twój kod z pewnością dałby takie same wyniki.
Makro