Dlaczego średnia jest bardziej stabilna w różnych próbkach niż mediana?

22

Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza:

... średnia jest stabilna w różnych próbkach.

Wyjaśnia to wiele zalet mediany, np

... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ...

Biorąc pod uwagę fakt, że na medianę nie mają wpływu ekstremalne wyniki, pomyślałbym, że jest bardziej stabilny w próbkach. Zaskoczyło mnie więc twierdzenie autorów. Aby potwierdzić, przeprowadziłem symulację - wygenerowałem 1M liczb losowych i pobrałem próbkę 100 liczb 1000 razy, obliczyłem średnią i medianę każdej próbki, a następnie obliczyłem sd tych średnich próbek i median.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Jak widać, środki są bardziej ściśle rozłożone niż mediany.

wprowadź opis zdjęcia tutaj

Na załączonym obrazku czerwony histogram jest dla median - jak widać, jest on mniejszy i ma grubszy ogon, co również potwierdza twierdzenie autora.

Jestem tym zaskoczony! W jaki sposób mediana, która jest bardziej stabilna, może ostatecznie różnić się bardziej w zależności od próbki? Wydaje się to paradoksalne! Wszelkie spostrzeżenia będą mile widziane.

Alok Lal
źródło
1
Tak, ale spróbuj tego, próbkując z nums <- rt (n = 10 ** 6, 1.1). Ten rozkład t1.1 da masę skrajnych wartości, niekoniecznie zbalansowanych między wartością dodatnią i ujemną (tak samo duża szansa na uzyskanie kolejnej dodatniej wartości ekstremalnej jak ujemna wartość ekstremalna do zrównoważenia), co spowoduje gigantyczną wariancję . Przed tym mediana chroni. Jest mało prawdopodobne, aby rozkład normalny dał jakieś szczególnie ekstremalne wartości rozciągające rozkład szerszy niż mediana. x¯x¯
Dave
10
Oświadczenie autora zasadniczo nie jest prawdziwe. (Otrzymaliśmy tutaj wiele pytań związanych z błędami w książkach tego autora, więc nie jest to niespodzianką). Standardowe kontrprzykłady znajdują się wśród „stabilnych rozkładów” , gdzie średnia jest niczym innym jak „stabilnym” (w jakimkolwiek sensownym sensie termin), a mediana jest znacznie bardziej stabilna.
whuber
1
„... średnia jest stabilna w różnych próbkach”. to nonsensowne stwierdzenie. „stabilność” nie jest dobrze zdefiniowana. Średnia (próbka) jest rzeczywiście dość stabilna w pojedynczej próbce, ponieważ jest to wielkość nielosowa. Jeśli dane są „niestabilne” (wysoce zmienne?), Średnia jest również „niestabilna”.
AdamO
1
Odpowiedzi na to pytanie prawdopodobnie udzielają szczegółowe analizy dostępne na stronie stats.stackexchange.com/questions/7307 , w których to samo pytanie jest zadawane w określony sposób (gdzie sens „stabilny” jest dobrze zdefiniowany).
whuber
2
Spróbuj wymienić rnormz rcauchy.
Eric Towers

Odpowiedzi:

3

Mediana jest maksymalnie odporna na wartości odstające, ale bardzo podatna na hałas. Jeśli wprowadzisz niewielką ilość hałasu do każdego punktu, wejdzie on w medianę bez tłumienia, o ile hałas jest wystarczająco mały, aby nie zmienić względnej kolejności punktów. To znaczy, że jest na odwrót. Szum jest uśredniany, ale pojedyncza wartość odstająca może dowolnie zmienić średnią.

Twój test mierzy przede wszystkim odporność na hałas, ale możesz łatwo stworzyć taki, w którym mediana działa lepiej. Jeśli potrzebujesz estymatora, który jest odporny zarówno na wartości odstające, jak i na hałas, po prostu wyrzuć górną i dolną jedną trzecią, a średnią resztę.

Rainer P.
źródło
Czy istnieje bardziej szczegółowa nazwa tego algorytmu niż „średnia obcięta o 33% ”?
David Cary
25

Jak powiedzieli @whuber i inni, stwierdzenie to ogólnie nie jest prawdziwe. A jeśli chcesz być bardziej intuicyjny - nie mogę nadążyć za głębokimi maniakami matematyki tutaj - możesz spojrzeć na inne sposoby i mediana są stabilne, czy nie. Dla tych przykładów załóż nieparzystą liczbę punktów, aby moje opisy były spójne i proste.

  1. Wyobraź sobie, że rozłożyłeś punkty na linii liczbowej. Teraz wyobraź sobie, że bierzesz wszystkie punkty powyżej środka i przesuwasz je do 10-krotności ich wartości. Mediana pozostaje niezmieniona, średnia znacznie się zmieniła. Mediana wydaje się więc bardziej stabilna.

  2. Teraz wyobraź sobie, że te punkty są dość rozłożone. Przesuń punkt środkowy w górę i w dół. Ruch o jedną jednostkę zmienia medianę o jeden, ale ledwie przesunął średnią. Mediana wydaje się teraz mniej stabilna i bardziej wrażliwa na małe ruchy jednego punktu.

  3. Teraz wyobraź sobie, że bierzesz najwyższy punkt i płynnie przesuwasz go z najwyższego do najniższego punktu. Środek również płynnie się zmieni. Ale mediana nie będzie się przesuwać w sposób ciągły: nie będzie się w ogóle poruszać, dopóki najwyższy punkt nie spadnie poniżej poprzedniej mediany, następnie zacznie podążać za tym punktem, dopóki nie spadnie poniżej następnego punktu, a następnie mediana wróci do tego punktu i znowu nie nie ruszaj się, gdy będziesz kontynuował przesuwanie punktu w dół. [Edytowane według komentarza]

Różne transformacje punktów powodują, że w pewnym sensie średnia lub mediana wygląda mniej gładko lub stabilnie. Matematyka tutaj pokazała ci rozkłady, z których możesz próbkować, które bardziej pasują do twojego eksperymentu, ale mam nadzieję, że ta intuicja również pomoże.

Wayne
źródło
1
W odniesieniu do punktu 3: Czy mediana nie poruszałaby się również płynnie? Powiedzmy, że początkowy zestaw punktów to [1, 3, 5, 7, 9]. Początkowo mediana wynosi 5. To pozostanie mediana, dopóki piąty punkt (początkowo 9) nie spadnie poniżej 5, w którym to momencie mediana będzie płynnie podążać za piątym punktem, gdy maleje, aż uderzy 3, w którym punkcie mediana pozostanie 3. Zatem nawet jeśli punktem, który definiuje medianę, jest „skakanie” (od trzeciego punktu, do piątego punktu, do drugiego punktu), faktyczna wartość mediany nie ma skoku / nieciągłości.
Scott M
@ScottM Wydajesz się mieć rację. Nie jestem pewien, dlaczego myślałem, że skoczy. Przeredaguję, kiedy będę miał szansę.
Wayne
18

Załóżmy, że masz n punktów danych z pewnego leżącego u podstaw rozkładu ciągłego o średniej μ i wariancji σ2< . Niech f będzie funkcją gęstości tego rozkładu i pozwolić m jest ich mediana. Aby jeszcze bardziej uprościć ten wynik, niech f~ będzie odpowiednią znormalizowaną funkcją gęstości, podaną przez f~(z)=σf(μ+σz)zR. Asymptotyczną wariancję średniej i mediany próbki podano odpowiednio przez:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

Dlatego mamy:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2

Przywróć Monikę
źródło
Niesamowite! Dzięki.
Alok Lal
4

Komentarz: Wystarczy powtórzyć symulację, używając rozkładu, dla którego SD średnich i median dają odwrotny wynik:

W szczególności numspochodzą teraz z rozkładu Laplace'a (zwanego również „podwójnym wykładniczym”), który można symulować jako różnicę dwóch rozkładów wykładniczych o tej samej częstotliwości (tutaj domyślna stawka 1). [Być może zobacz Wikipedia na temat dystrybucji Laplace'a.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

enter image description here

Uwaga: Kolejna łatwa możliwość, wyraźnie wymienione w @ whuber w linku jest Cauchy'ego, które mogą być symulowane jako t-Studenta dystrybucji z jednym stopniem swobody, rt(10^6, 1). Jednak jego ogony są tak ciężkie, że wykonanie ładnego histogramu jest problematyczne.

BruceET
źródło