Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza:
... średnia jest stabilna w różnych próbkach.
Wyjaśnia to wiele zalet mediany, np
... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ...
Biorąc pod uwagę fakt, że na medianę nie mają wpływu ekstremalne wyniki, pomyślałbym, że jest bardziej stabilny w próbkach. Zaskoczyło mnie więc twierdzenie autorów. Aby potwierdzić, przeprowadziłem symulację - wygenerowałem 1M liczb losowych i pobrałem próbkę 100 liczb 1000 razy, obliczyłem średnią i medianę każdej próbki, a następnie obliczyłem sd tych średnich próbek i median.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Jak widać, środki są bardziej ściśle rozłożone niż mediany.
Na załączonym obrazku czerwony histogram jest dla median - jak widać, jest on mniejszy i ma grubszy ogon, co również potwierdza twierdzenie autora.
Jestem tym zaskoczony! W jaki sposób mediana, która jest bardziej stabilna, może ostatecznie różnić się bardziej w zależności od próbki? Wydaje się to paradoksalne! Wszelkie spostrzeżenia będą mile widziane.
rnorm
zrcauchy
.Odpowiedzi:
Mediana jest maksymalnie odporna na wartości odstające, ale bardzo podatna na hałas. Jeśli wprowadzisz niewielką ilość hałasu do każdego punktu, wejdzie on w medianę bez tłumienia, o ile hałas jest wystarczająco mały, aby nie zmienić względnej kolejności punktów. To znaczy, że jest na odwrót. Szum jest uśredniany, ale pojedyncza wartość odstająca może dowolnie zmienić średnią.
Twój test mierzy przede wszystkim odporność na hałas, ale możesz łatwo stworzyć taki, w którym mediana działa lepiej. Jeśli potrzebujesz estymatora, który jest odporny zarówno na wartości odstające, jak i na hałas, po prostu wyrzuć górną i dolną jedną trzecią, a średnią resztę.
źródło
Jak powiedzieli @whuber i inni, stwierdzenie to ogólnie nie jest prawdziwe. A jeśli chcesz być bardziej intuicyjny - nie mogę nadążyć za głębokimi maniakami matematyki tutaj - możesz spojrzeć na inne sposoby i mediana są stabilne, czy nie. Dla tych przykładów załóż nieparzystą liczbę punktów, aby moje opisy były spójne i proste.
Wyobraź sobie, że rozłożyłeś punkty na linii liczbowej. Teraz wyobraź sobie, że bierzesz wszystkie punkty powyżej środka i przesuwasz je do 10-krotności ich wartości. Mediana pozostaje niezmieniona, średnia znacznie się zmieniła. Mediana wydaje się więc bardziej stabilna.
Teraz wyobraź sobie, że te punkty są dość rozłożone. Przesuń punkt środkowy w górę i w dół. Ruch o jedną jednostkę zmienia medianę o jeden, ale ledwie przesunął średnią. Mediana wydaje się teraz mniej stabilna i bardziej wrażliwa na małe ruchy jednego punktu.
Teraz wyobraź sobie, że bierzesz najwyższy punkt i płynnie przesuwasz go z najwyższego do najniższego punktu. Środek również płynnie się zmieni. Ale mediana nie będzie się przesuwać w sposób ciągły: nie będzie się w ogóle poruszać, dopóki najwyższy punkt nie spadnie poniżej poprzedniej mediany, następnie zacznie podążać za tym punktem, dopóki nie spadnie poniżej następnego punktu, a następnie mediana wróci do tego punktu i znowu nie nie ruszaj się, gdy będziesz kontynuował przesuwanie punktu w dół. [Edytowane według komentarza]
Różne transformacje punktów powodują, że w pewnym sensie średnia lub mediana wygląda mniej gładko lub stabilnie. Matematyka tutaj pokazała ci rozkłady, z których możesz próbkować, które bardziej pasują do twojego eksperymentu, ale mam nadzieję, że ta intuicja również pomoże.
źródło
[1, 3, 5, 7, 9]
. Początkowo mediana wynosi5
. To pozostanie mediana, dopóki piąty punkt (początkowo9
) nie spadnie poniżej5
, w którym to momencie mediana będzie płynnie podążać za piątym punktem, gdy maleje, aż uderzy3
, w którym punkcie mediana pozostanie3
. Zatem nawet jeśli punktem, który definiuje medianę, jest „skakanie” (od trzeciego punktu, do piątego punktu, do drugiego punktu), faktyczna wartość mediany nie ma skoku / nieciągłości.Załóżmy, że maszn punktów danych z pewnego leżącego u podstaw rozkładu ciągłego o średniej μ i wariancji σ2<∞ . Niech f będzie funkcją gęstości tego rozkładu i pozwolić m jest ich mediana. Aby jeszcze bardziej uprościć ten wynik, niech f~ będzie odpowiednią znormalizowaną funkcją gęstości, podaną przez f~(z)=σ⋅f(μ+σz) z∈R . Asymptotyczną wariancję średniej i mediany próbki podano odpowiednio przez:
Dlatego mamy:
źródło
Komentarz: Wystarczy powtórzyć symulację, używając rozkładu, dla którego SD średnich i median dają odwrotny wynik:
W szczególności
nums
pochodzą teraz z rozkładu Laplace'a (zwanego również „podwójnym wykładniczym”), który można symulować jako różnicę dwóch rozkładów wykładniczych o tej samej częstotliwości (tutaj domyślna stawka 1). [Być może zobacz Wikipedia na temat dystrybucji Laplace'a.]Uwaga: Kolejna łatwa możliwość, wyraźnie wymienione w @ whuber w linku jest Cauchy'ego, które mogą być symulowane jako t-Studenta dystrybucji z jednym stopniem swobody,
rt(10^6, 1)
. Jednak jego ogony są tak ciężkie, że wykonanie ładnego histogramu jest problematyczne.źródło