Uważałem, że poniższe wykresy pudełkowe można interpretować jako „większość mężczyzn jest szybsza niż większość kobiet” (w tym zbiorze danych), przede wszystkim dlatego, że mediana czasu mężczyzn była krótsza niż mediana czasu kobiet. Ale kurs EdX na temat R i quizu statystycznego powiedział mi, że jest niepoprawny. Pomóż mi zrozumieć, dlaczego moja intuicja jest nieprawidłowa.
Oto pytanie:
Rozważmy losową próbę osób kończących Maraton Nowojorski w 2002 roku. Ten zestaw danych można znaleźć w pakiecie UsingR. Załaduj bibliotekę, a następnie załaduj zestaw danych nym.2002.
library(dplyr) data(nym.2002, package="UsingR")
Użyj wykresów pudełkowych i histogramów, aby porównać czasy wykończenia mężczyzn i kobiet. Które z poniższych najlepiej opisuje różnicę?
- Mężczyźni i kobiety mają ten sam rozkład.
- Większość mężczyzn jest szybsza niż większość kobiet.
- Samce i samice mają podobne prawe wypaczone rozkłady z pierwszym, 20 minut przesunięte w lewo.
- Obie dystrybucje są zwykle dystrybuowane ze średnią różnicą około 30 minut.
Oto czasy maratonu w Nowym Jorku dla mężczyzn i kobiet, jako kwantyle, histogramy i wykresy pudełkowe:
# Men's time quantile
0% 25% 50% 75% 100%
147.3333 226.1333 256.0167 290.6375 508.0833
# Women's time quantile
0% 25% 50% 75% 100%
175.5333 250.8208 277.7250 309.4625 566.7833
Odpowiedzi:
Myślę, że powód, dla którego zostałeś oznaczony jako niepoprawny, to nie tyle, że odpowiedź, którą udzieliłeś na pytanie z wieloma pytaniami, była błędna, a raczej, że opcja 3 „Samce i kobiety mają podobne prawe wypaczone rozkłady z pierwszym, 20 minut przesunięte w lewo” byłby lepszym wyborem, ponieważ jest bardziej informacyjny w oparciu o dostarczone informacje.
źródło
Oto najmniejszy kontrprzykład, jaki udało mi się znaleźć:
A (
[1, 4, 10])
i B ([0, 6, 9]
) mają tę samą średnią (5
)B ma większą medianę (
6
) niż A (4
)Oto kolejny przykład z 4 elementami:
źródło
„Większość mężczyzn jest szybsza niż większość kobiet” jest potencjalnie trochę niejednoznaczna, ale normalnie zinterpretowałbym jej intencję, że jeśli spojrzymy na losowe pary, przez większość czasu mężczyzna byłby szybszy - tj.P.(M.ja<fajot) >12) losowo ja , j (gdzie M.ja jest czas na ja -ty mężczyzna ”itp.).
Oczywiście możliwe są inne interpretacje tego wyrażenia (w końcu to taka dwuznaczność), a niektóre z tych innych możliwości mogą być zgodne z twoim rozumowaniem.
[Mamy również problem z tym, czy mówimy o próbkach czy populacjach ... „większość mężczyzn […] większość kobiet” wydaje się oświadczeniem populacyjnym (o populacji potencjalnego czasu), ale obserwowaliśmy tylko czasy że wydaje się, że traktujemy to jako próbkę, więc musimy uważać na to, jak szerokie jest to twierdzenie.]
Zauważ, żeP.(M.ja<fajot) >12) nie wynika z tego M.˜<fa˜ . Mogą iść w przeciwnych kierunkach.
[Nie twierdzę, że się mylisz, sądząc, że odsetek losowych par MF, w których mężczyzna był szybszy niż kobieta, jest większy niż 1/2 - prawie na pewno masz rację. Mówię tylko, że nie można tego powiedzieć, porównując mediany. Nie można tego powiedzieć, patrząc na proporcję w każdej próbce powyżej lub poniżej mediany drugiej próbki. Musisz dokonać innego porównania.]
Oznacza to, że podczas gdy mediana mężczyzny może być szybsza niż mediana kobiety, możliwe jest uzyskanie próbki czasów (lub ciągłego rozkładu czasów, jeśli chodzi o tę sprawę), gdzie szansa, że losowy mężczyzna jest szybszy niż losowa kobieta, jest mniej niż12) . W dużych próbkach oba przeciwne wskazania mogą być znaczące.
Przykład:
Zestaw danych A:
Zestaw danych B:
Zestaw danych C:
(Dane są tutaj , ale są tam wykorzystywane do innego celu - o ile pamiętam, sam je wygenerowałem)
Zauważ, że proporcja A <B wynosi 2/3, proporcja A <C wynosi 5/9, a proporcja B <C wynosi 2/3. Zarówno A w porównaniu do B, jak i B w porównaniu do C są znaczące na poziomie 5%, ale możemy osiągnąć dowolny poziom istotności, po prostu dodając wystarczającą liczbę kopii próbek. Możemy nawet uniknąć powiązań, duplikując próbki, ale dodając wystarczająco małe drgania (wystarczająco mniejsze niż najmniejsza przerwa między punktami)
Przykładowe mediany idą w innym kierunku: mediana (A)> mediana (B)> mediana (C)
Ponownie możemy osiągnąć znaczenie dla pewnego porównania median - na dowolnym poziomie istotności - poprzez powtórzenie próbek.
Aby odnieść to do obecnego problemu, wyobraź sobie, że A to „czasy kobiet”, a B to „czasy mężczyzn”. Wówczas średni czas mężczyzn jest krótszy, ale losowo wybrany mężczyzna będzie 2/3 czasu wolniejszy niż losowo wybrana kobieta.
Biorąc nasz sygnał z próbek A i C, możemy wygenerować większy zestaw danych (w R) w następujący sposób:
Mediana F wyniesie około 16,25, a mediana M wyniesie około 11,25, ale odsetek przypadków, w których F <M wyniesie 5/9.
[Jeśli zastąpimy n / 3 dwumianowym zmiennym z parametramin i 13)
będziemy pobierać próbki z populacji, w której mediana rozkładu F wynosi 16,25, podczas gdy mediana rozkładu M wynosi 11,25. Tymczasem w tej populacji prawdopodobieństwo, że F <M będzie ponownie wynosić 5/9.]
Zauważ też, żeP.( F.< med ( M) ) =2)3) i P.( M> med ( F) ) =2)3) podczas med ( M) < med ( F) (na znaczną odległość).
źródło
Poniższe dane pochodzą z tego postu na blogu , który ilustruje ważne praktyczne zastosowanie tych pomysłów.
Standaryzacja zapewnia potężne urządzenie do porównywania 2 dystrybucji. Poniższe 3 liczby porównują wzrosty 130-miesięcznych chłopców i dziewcząt z Narodowego Programu Pomiaru Dziecka (NCMP) w Anglii. (Był to wiek modalny w tym zbiorze danych; wybrałem go po prostu, aby uzyskać jak najwięcej danych, a zatem najbardziej płynne wykresy, w obrębie jednej kohorty wiekowej).
Ryc. 1: Wysokości chłopców i dziewcząt w wieku 130 miesięcy z Narodowego Programu Pomiaru Dziecka w Anglii (NCMP)
Ryc. 2: Procenty wzrostu dla chłopców i dziewcząt w wieku 130 miesięcy. Źródło: angielski NCMP
Rycina 3: Rozkład wysokości 130-miesięcznych dziewcząt w stosunku do chłopców w tym samym wieku.
W ostatniej z tych liczb porównanie wysokości zostało ustandaryzowane zgodnie z wysokościami chłopców. Tak więc, czytając wzdłuż szarych kropkowanych linii na rycinie 3, możesz tworzyć takie oświadczenia, jak:
Warto wspomnieć o jednym punkcie możliwego zamieszania na tej fabule. Chociaż linia 45 ° chłopców jest „wyższa” na wykresie niż krzywa karmazynowa dziewcząt, obserwacja ta odpowiada jednak dobrze znanemu faktowi, że w tym wieku (są to równiarki szóstej klasy) dziewczęta są zazwyczaj wyższe niż chłopcy . Zauważ, że wysokość ta jest odpowiednio odzwierciedlona w fakcie, że krzywa karmazynu jest przesunięta w prawo względem niebieskiej linii.
To podejście jest dość ogólne . Przy takim porównaniu jedna z grup - ta, do której się ustandaryzujesz - staje się linią 45 °. Inną grupą może być na ogół dowolna monotoniczna krzywa rosnąca od dolnej lewej do prawej górnej. Pod warunkiem, że podstawowe rozkłady są ciągłe (gęstości nie mają mas punktowych), porównywana krzywa będzie ciągła. Jeśli podstawowe gęstości dzielą to samo wsparcie , krzywa musi przebiegać( 0 , 0 ) do ( 1 , 1 ) .
Oryginalne pytanie można teraz przekształcić w kategoriach geometrycznych, jako pytanie, czy można narysować krzywą magenta z ryc. 3, aby jednocześnie osiągnąć (a) postulowaną relację między medianami i (b) relację nieco nieuchwytną, że @Glen_b wyjaśnione (słusznie, jak sądzę) w jego odpowiedzi. Zastanawiam się, czy nieciągłości dystrybucyjne (masy punktowe w gęstościach) mogłyby zapewnić przypadek „patologiczny”. Przypuszczam, że każdy taki patologiczny przypadek będzie „wyjątkiem potwierdzającym regułę”.
Jeśli ktoś uczyni najprostsze, logiczne tłumaczenie pytania z quizu na bardziej formalny język, który można poddać analizie, wówczas (korzystając z ustawienia wysokości dzieci powyżej) możemy chcieć powiedzieć osobęx ma właściwość TMB if x Jest t Aller niż m ost b OYS. Następnie twoje pytanie quizu brzmiało po prostu, czy większość dziewcząt ma właściwość TMB . Jeśli definiuje się, że „większość” oznacza więcej niż połowę , to posiadanie właściwości TMB oznacza, że jest wyższy niż chłopiec o średniej wysokości. Pytanie, czy większość dziewcząt ma właściwość TMB, sprowadza się do pytania, czy mediana dziewczyny ma tę właściwość. Na tym koncie odpowiedź na pytanie quizu brzmiałaby „ tak” .
Z drugiej strony, jeśli faktyczny cel „większości” wynosił „> 50%”, można oczekiwać, że zastosowane zostanie bardziej precyzyjne wyrażenie „większość”. Gdyby ktoś mi powiedział, że coś „prawdopodobnie” się wydarzy, sądzę, że przywołuje się subiektywne prawdopodobieństwo 60% lub więcej. Podobnie „większość” oznacza dla mnie coś więcej niż 70–80%. Oczywiście z powyższego wątku, jeśli „większość” jest traktowana jako kryterium bardziej rygorystyczne niż 52,5%, nie można powiedzieć „większość dziewcząt [ma tę właściwość, że] jest wyższa niż większość chłopców”. Zastanawiam się, czy częścią uzasadnienia pytania quizowego było pobudzenie analizy słów odnoszących się do pojęć liczbowych. (Jeśli uważasz, że to wszystko jest trochę głupie, rozważ te wykresy, pokazując, w jaki sposób ludzie interpretują różne probabilistyczne słowa i wyrażenia.) Być może celem było również podkreślenie, że w różnych rzeczywistych dystrybucjach występuje duża różnorodność i że pojedyncza statystyka (mediana, średnia, co-mają- ty) rzadko popierasz szerokie, obszerne wypowiedzi.
źródło