Jeśli wredny jest tak wrażliwy, po co go używać?

84

Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności?

Jedną rzeczą, o której mogę pomyśleć, może być zrozumienie obecności wartości odstających, tj. Jeśli mediana jest daleka od średniej, wówczas rozkład jest wypaczony i być może dane muszą zostać zbadane, aby zdecydować, co należy zrobić z wartościami odstającymi. Czy są jakieś inne zastosowania?

Legenda
źródło
14
W odniesieniu do pierwszego pytania krótka uwaga: średnia w statystykach to tylko pierwszy moment populacji , podczas gdy mediana nie. Próbując użyć CLT, prawa wielkich liczb itp., Znów jesteś związany z istnieniem skończonych momentów. Choć biorąc na przykład rozkład Cauchy'ego: mediana istnieje, a średnia nie;)
Dmitrij Celov
2
@Dmitrij To jest głęboka i wnikliwa odpowiedź. Dlaczego nie rozwiniesz tego w odpowiedzi?
whuber
Gdybyś nie użył środka, zraniłbyś jego uczucia? (Przepraszam, nie mogłem się oprzeć.)
Daniel R Hicks
3
@Daniel R Hicks: I to dość podłe, prawda? (Przepraszam, nie mogłem się też oprzeć).
Muhammad Alkarouri
3
To pytanie jest o wiele bardziej interesujące niż zwykle: „Dlaczego nie zawsze używamy solidnych algorytmów?” pytanie, ale może mieć takie samo myślenie, że „solidne == magiczne” i gdybyśmy tylko zastosowali solidne metody, nie musielibyśmy badać naszych danych, rozumieć ich ani martwić się różnego rodzaju problemami z dokładnością, ponieważ są one "krzepki". Nadal +1.
Wayne,

Odpowiedzi:

113

W pewnym sensie używana jest średnia, ponieważ jest wrażliwa na dane. Jeśli rozkład jest symetryczny, a ogony są podobne do rozkładu normalnego, średnia jest bardzo skutecznym podsumowaniem tendencji centralnej. Mediana, mimo że jest solidna i dobrze zdefiniowana dla dowolnego ciągłego rozkładu, jest tylko tak skuteczna jak średnia, jeśli dane pochodzą z rozkładu normalnego. To ta względna nieefektywność mediany powstrzymuje nas przed użyciem jej nawet bardziej niż my. Względna nieefektywność przekłada się na niewielką absolutną nieefektywność, gdy wielkość próby staje się duża, więc dla dużej liczby możemy być bardziej wolni od winy za użycie mediany. n2πn

Warto zauważyć, że dla miary zmienności (rozprzestrzeniania się, dyspersji) istnieje bardzo solidny estymator, który jest 0,98 równie skuteczny jak odchylenie standardowe, a mianowicie średnia różnica Giniego. Jest to średnia bezwzględna różnica między dowolnymi dwoma obserwacjami. [Musisz pomnożyć standardowe odchylenie próbki przez stałą, aby oszacować tę samą ilość oszacowaną przez średnią różnicę Giniego.] Skuteczną miarą tendencji centralnej jest estymator Hodgesa-Lehmanna, tj. Mediana wszystkich średnich parowych. Użylibyśmy go więcej, gdyby jego interpretacja była prostsza.

Frank Harrell
źródło
13
+1 za wzmiankę o estymatorze tendencji centralnej Hodgesa-Lehmanna. Pod wieloma względami znajduje się pomiędzy średnią a medianą. Gdyby tylko łatwo było obliczyć w dużej próbie, byłby bardziej popularny niż średnia lub mediana jako miara lokalizacji.
ttnphns,
BTW, @Frank, czy wiesz, jaki teoretyczny rozkład próbkowania ma centrum Hodges-Lehmann? Ja nie - i interesuję się tym.
ttnphns,
16
Dziękuję za komentarz. One-liniowej w R można obliczyć to skutecznie do N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. R może wywołać trywialny program C, Fortran lub Ratfor, aby szybko się rozpalić. Pakiet ICSNP w języku R ma dość wydajną implementację ze swoją hl.locfunkcją. Dla N = 5000 było 2,66 razy szybsze niż powyższy kod (całkowity czas 1,5 sekundy). Byłoby miło również uzyskać skuteczny przedział ufności.
Frank Harrell,
@FrankHarrel, co możesz powiedzieć o estymatorach i dla odchylenia standardowego? Jakiej stałej należy użyć do oszacowania przy użyciu średniej różnicy Giniego dla rozkładów niestandardowych? Nie mogłem znaleźć prac opisujących procedurę obliczania tej stałej w źródłach o otwartym dostępie ... Nie znalazłem też żadnych informacji o solidności średniej różnicy Giniego, czy mógłbyś podać pomysł, gdzie ją przeszukać? Q n σSnQnσ
Niemiecki Demidow
1
Mówimy o miarach dyspersji, więc porównanie modeli nie jest kwestią sporną (i nie mylić z „Indeksem Giniego”). Średnia różnica Giniego jest miarą absolutną. Łatwiej jest interpretować niż inne miary. Fakt, że trzeba będzie obliczyć inną stałą dla każdej dystrybucji, mówi mi, że nie chcemy jej używać.
Frank Harrell
36

Wiele świetnych odpowiedzi już, ale cofając się i stając się bardziej podstawowym, powiedziałbym, że to dlatego, że odpowiedź zależy od pytania, które zadajesz. Średnia i mediana odpowiadają na różne pytania - czasem jedno jest właściwe, a czasem drugie.

Łatwo jest powiedzieć, że mediana powinna być stosowana, gdy występują wartości odstające, dla wypaczonych rozkładów, czy cokolwiek innego. Ale nie zawsze tak jest. Weź dochód - prawie zawsze zgłaszany z medianą, i zwykle tak jest. Ale jeśli patrzysz na siłę nabywczą całej społeczności, może to nie być właściwe. W niektórych przypadkach nawet tryb może być najlepszy (szczególnie jeśli dane są pogrupowane).

Peter Flom
źródło
8
+1 za oczywisty punkt, do którego nikt inny się nie odniósł: są to różne koncepcje i odpowiadają na różne pytania. Również w wielu przypadkach wiele się traci, łącząc całą dystrybucję w jeden numer podsumowania, więc czasami obaj wykonują kiepską robotę.
Michael McGowan
25

Gdy wartość jest dla nas śmieciem, nazywamy ją „nieprzypisową” i chcemy, aby analiza była dla niej solidna (i preferowała medianę); gdy ta sama wartość jest atrakcyjna, nazywamy ją „ekstremalną” i chcemy, aby analiza była na nią wrażliwa (i preferowała średnią). Dialektyka...

Średnia reaguje w równym stopniu na przesunięcie wartości, niezależnie od tego, gdzie w rozkładzie ma miejsce przesunięcie. Na przykład, 1 2 3 4 5możesz zwiększyć dowolną wartość o 2 - wzrost średniej będzie taki sam. Reakcja Mediany jest mniej „spójna”: dodaj 2 do punktów danych 4 lub 5, a mediana nie wzrośnie; ale dodaj 2 do punktu 2 - aby przesunięcie przekroczyło medianę, a mediana zmieni się dramatycznie (znacznie zmieni się średnia).

Średnia jest zawsze dokładnie zlokalizowana. Mediana nie; na przykład w zestawie 1 2 3 4 dowolną wartość od 2 do 3 można nazwać medianą. Dlatego analizy oparte na medianach nie zawsze są unikalnym rozwiązaniem.

Mean to miejsce minimalnych odchyleń sumy do kwadratu. Wiele zadań optymalizacyjnych opartych na algebrze liniowej (w tym słynna regresja OLS) minimalizuje ten kwadratowy błąd, a zatem implikuje pojęcie średniej. Mediana umiejscowienia minimalnej sumy absolutnych odchyleń. Techniki optymalizacji w celu zminimalizowania takiego błędu są nieliniowe i są bardziej złożone / słabo znane.

ttnphns
źródło
2
+1 Mam małą obawę, że pierwszy akapit może być źle zrozumiany, ponieważ sugerowanie wykrycia wartości odstających jest całkowicie subiektywnym procesem. Nie sądzę jednak, żebyś chciał to sugerować.
whuber
8
+1 | Myślę, że pierwsze zdanie implikuje, że zastosowanie detekcji wartości odstających jest całkowicie subiektywne, dlatego głosuję na „zachowaj”.
Jana,
2
Miałem na myśli, że wykrywanie zewnętrzne jest rygorystyczną procedurą z subiektywnymi filozoficznymi lub moralnymi korzeniami
ttnphns
3
@ttnphns, pisownia „outliar” zamiast „outlier” jest zamierzona, czy nie?
mpiktas
1
Niezamierzona literówka.
ttnphns
16

Istnieje wiele odpowiedzi na to pytanie. Oto jeden, którego prawdopodobnie nie zobaczysz nigdzie indziej, więc zamieszczam go tutaj, ponieważ uważam, że jest to związane z tym tematem. Ludzie często wierzą, że ponieważ mediana jest uważana za solidny środek w odniesieniu do wartości odstających, jest również skuteczny dla większości wszystkiego. W rzeczywistości jest również uważany za odporny na odchylenie w przekrzywionych rozkładach. Te dwie solidne właściwości mediany są często nauczane razem. Można zauważyć, że leżące u podstaw wypaczone rozkłady również generują małe próbki, które wyglądają, jakby miały wartości odstające, a tradycyjną mądrością jest to, że w takich sytuacjach stosuje się mediany.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(tylko demonstracja, że ​​jest to przekrzywiony i podstawowy kształt)

hist(rexg(1e4, 0, 1, 1))

wątek

Zobaczmy teraz, co się stanie, jeśli spróbujemy z tego rozkładu różnych wielkości próby i obliczymy medianę i chcemy zobaczyć, jakie są między nimi różnice.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

działka 2

Jak widać z powyższego wykresu, mediana (na czerwono) jest znacznie bardziej wrażliwa na n niż na średnią. Jest to sprzeczne z pewną konwencjonalną mądrością dotyczącą korzystania z median o niskiej wartości ns, szczególnie jeśli rozkład może być wypaczony. Potwierdza to, że średnia jest znaną wartością, podczas gdy mediana jest wrażliwa na inne właściwości, z których jedną jest n.

Ta analiza jest podobna do Miller, J. (1988). Ostrzeżenie o medianie czasu reakcji. Journal of Experimental Psychology: Percepcja i wydajność człowieka , 14 (3): 539–543.

REWIZJA

Zastanawiając się nad kwestią pochylenia, pomyślałem, że wpływ na medianę może być po prostu dlatego, że w małych próbkach masz większe prawdopodobieństwo, że mediana jest na końcu rozkładu, podczas gdy średnia prawie zawsze będzie ważona wartościami bliższymi tryb. Dlatego, być może, gdyby ktoś tylko pobierał próbki z prawdopodobieństwem wartości odstających, to być może pojawiliby się te same wyniki.

Pomyślałem więc o sytuacjach, w których mogą wystąpić wartości odstające, a eksperymentatorzy mogą spróbować je wyeliminować.

Jeśli wartości odstające występowały konsekwentnie, na przykład jeden na każde próbkowanie danych, wówczas mediany są odporne na wpływ tej wartości odstającej i konwencjonalnej historii o stosowaniu median.

Ale zwykle tak nie jest.

Można znaleźć wartość odstającą w bardzo niewielu komórkach eksperymentu i zdecydować się na użycie mediany zamiast średniej w tym przypadku. Ponownie, mediana jest mocniejsza, ale jej rzeczywisty wpływ jest stosunkowo niewielki, ponieważ jest bardzo mało wartości odstających. Byłby to zdecydowanie częstszy przypadek niż powyższy, ale efekt zastosowania mediany byłby prawdopodobnie tak mały, że nie miałby większego znaczenia.

Być może częściej wartości odstające mogą być losowym składnikiem danych. Na przykład prawdziwa średnia i standardowe odchylenie populacji może wynosić około 0, ale istnieje procent czasu, w którym pobieramy próbki z populacji odstającej, gdzie średnia wynosi 3. Rozważ następującą symulację, w której tylko taka populacja jest pobierana, zmieniając próbkę rozmiar.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

wyniki

Mediana jest w kolorze czerwonym, a średnia w kolorze czarnym. Jest to podobne odkrycie do wypaczonej dystrybucji.

W stosunkowo praktycznym przykładzie zastosowania median w celu uniknięcia skutków wartości odstających można wymyślić sytuacje, w których na oszacowanie wpływa n znacznie bardziej, gdy stosuje się medianę niż gdy stosuje się średnią.

Jan
źródło
Dobry przykład, ale tak naprawdę zależy od dystrybucji. Jeśli użyjesz rozkładu normalnego lub jednolitego, wykres będzie bardzo różny, z dwiema liniami nałożonymi na siebie. Różnica polega na rozkładzie wykładniczym.
nico
1
-1 Ta odpowiedź myli „wrażliwość” z „stronniczością”.
whuber
4
Dużo lepiej; Usunąłem głosowanie. Ale intryguje mnie nowe wyjaśnienie: czy możesz wskazać jakieś źródło - tekst, papier lub witrynę sieci Web - które faktycznie sprawia, że ​​twierdzenie „[mediana] jest również uważane za odporne na stronniczość w wypaczonych dystrybucjach” i wyjaśnia co to może znaczyć Nie spotkałem się wcześniej z takim roszczeniem i nie jestem pewien, co tak naprawdę mówi.
whuber
3
To więcej wiedzy ludowej na temat radzenia sobie z czasami reakcji (znanymi z przekrzywienia) w badaniach psychologicznych. Zamieszczam odniesienie do artykułu, który obala mądrość ludową w psychologii (że źle się czuję, nie wspominając wcześniej).
Jan
3
BTW, pomimo pracy Millera (1988), ludzie nadal używają mediany czasów reakcji w badaniach z manipulacjami prawdopodobieństwa, w których warunki mają różną liczbę próbek, a dolna jest zwykle raczej niewielka.
Jan
11
  • Na podstawie średniej łatwo jest obliczyć sumę dla wszystkich pozycji, np. Jeśli znasz średni dochód populacji i wielkość populacji, możesz natychmiast obliczyć całkowity dochód całej populacji.

  • Średnia jest łatwa do obliczenia w O(n)złożoności czasowej. Obliczanie mediany w czasie liniowym jest możliwe, ale wymaga więcej przemyślenia. Oczywiste rozwiązanie wymagające sortowania ma gorszą ( O(n log n)) złożoność czasową.

I spekuluję, że istnieje inny powód, dla którego środek ten jest bardziej popularny niż mediana:

  • Średnia jest nauczana dla większej liczby osób w szkole i prawdopodobnie jest nauczana przed nauczeniem mediany
Andre Holzner
źródło
W przypadku punktu złożoności czasu zależy to od sposobu przechowywania wartości. Jeśli wartości są już posortowane, z pewnością możliwe jest obliczenie mediany w złożoności czasu najgorszego przypadku O (1).
luiscubal
Zgadzam się - jego zastosowanie w obliczeniach takich jak sumy jest jedną z głównych zalet tego środka. Chociaż często wolę medianę, gdy celem jest coś opisać, często używamy średniej, gdy jest to wkład do innych obliczeń.
Jonathan
5

„Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności?”

W przypadkach, gdy wiadomo, że nie ma żadnych wartości odstających, na przykład gdy znamy proces generowania danych (na przykład w statystyce matematycznej).

Należy zwrócić uwagę na trywialne, że te dwie wielkości (średnia i mediana) w rzeczywistości nie mierzą tego samego i że większość użytkowników pyta o to pierwsze, kiedy tak naprawdę powinni być zainteresowani tym drugim (ten punkt dobrze ilustrują oparte na medianie testy Wilcoxona, które są łatwiej interpretowane niż testy t).

Następnie zdarzają się przypadki, w których z jakiegoś powodu lub z jakiegoś powodu jakieś regulacje narzucają użycie jego myśli.

użytkownik603
źródło
2

Jeśli chodzi o obecność wartości odstających, istnieją pewne proste sposoby sprawdzenia danych.

Wartości odstające, prawie z definicji, pojawiają się w naszych danych, gdy coś się zmienia albo w procesie generowania danych, albo w procesie gromadzenia danych. tzn. dane przestają być jednorodne. Jeśli twoje dane nie są jednorodne, to ani średnia, ani mediana nie mają większego sensu, ponieważ próbujesz oszacować centralną tendencję dwóch oddzielnych zestawów danych, które zostały zmieszane razem.

Najlepszą metodą zapewnienia jednorodności jest zbadanie procesów generowania i gromadzenia danych, aby upewnić się, że wszystkie dane pochodzą z jednego zestawu procesów. Tutaj nic nie przebije mocy mózgu.

W ramach dodatkowej kontroli możesz przejść do jednego z kilku testów statystycznych: chi-kwadrat, test Q Dixona, test Grubba lub karta kontrolna / karta zachowania procesu (zwykle X-słupek R lub XmR). Z mojego doświadczenia wynika, że ​​kiedy można zamówić dane w trakcie ich gromadzenia, wykresy zachowań procesu lepiej wykrywają wartości odstające niż testy wartości odstających. To zastosowanie wykresów może być nieco kontrowersyjne, ale uważam, że jest całkowicie zgodne z pierwotnymi intencjami Shewharta i jest to użycie, które jest wyraźnie zalecane przez Donalda Wheelera. Niezależnie od tego, czy używasz testów wartości odstających, czy wykresów zachowania procesu, pamiętaj, że wykryta „wartość odstająca” jest jedynie sygnałem potencjalnymniejednorodność, którą należy dalej zbadać. Rzadko ma sens wyrzucanie punktów danych, jeśli nie masz wyjaśnienia, dlaczego były to wartości odstające.

Jeśli używasz R, pakiet wartości odstających zapewnia testy wartości odstających, a dla wykresów zachowania procesu są qcc , IQCC i qAnalyst. Mam osobiste preferencje dotyczące użycia i wydajności pakietu qcc.

Tomek
źródło
2

Kiedy możesz chcieć tego środka?

Przykłady z finansów:

  • Zwrot obligacji:
    • Mediana zwrotu z obligacji zwykle wynosi kilka punktów procentowych.
    • Średni zwrot z obligacji może być niski lub wysoki w zależności od stopy domyślnej i odzysku w przypadku niewykonania zobowiązania. Mediana zignoruje to wszystko!
    • Powodzenia w wyjaśnianiu inwestorom: „Wiem, że nasz fundusz spadł w tym roku o 40%, ponieważ prawie połowa obligacji zbankrutowała bez poprawy, ale nasza mediana obligacji zwróciła 1%!”
  • Zwroty kapitału wysokiego ryzyka:
    • To samo na odwrót. Mediana inwestycji VC lub aniołów to popiersie, a cały zwrot pochodzi od kilku zwycięzców! (Uwaga / ostrzeżenie: szacunki zwrotu z kapitału podwyższonego ryzyka lub kapitału prywatnego są bardzo problematyczne ... bądź ostrożny!)

Tworząc zdywersyfikowany portfel, podejmując decyzję, w co inwestować i ile, średnia i kowariancja zwrotów prawdopodobnie będzie miała istotny wpływ na problem optymalizacji.

Matthew Gunn
źródło
Zgadzam się, ale wydaje się, że średnia lub mediana nie jest przedmiotem zainteresowania w żadnej z tych sytuacji: raczej sumy mogą być kluczowymi wielkościami. Oczywiście oznacza to z kolei, że oznacza to lepsze podsumowania niż mediany. Ale przyznanie, że zwrot z mediany obligacji może być głupią odpowiedzią, ale czy ktoś to proponuje?
Nick Cox,
@NickCox Dwa komentarze. (1) Chodzi o to, że mediana powrotu obligacji jest głupia! W tych odpowiedziach kryje się wielka teoria, ale pomyślałem, że niezwykle prosty przykład może dodać trochę koloru. Cytując odpowiedź Franka: „stosuje się średnią, ponieważ jest wrażliwa na dane”, a zwroty z portfela dają prostą, zrozumiałą sytuację, w której tego chcesz. (2) Rozróżnienie między troską o „sumę” a troską o „średnią” może być dość mgliste. „Czy powinienem inwestować w fundusz hedgingowy?” Aby odpowiedzieć na to pytanie, być może chciałbym wiedzieć: „jaki jest średni zwrot funduszy hedgingowych?”
Matthew Gunn,
1
(1) Zgadzam się, jak powiedziano; moje pytanie dotyczy tylko tego, czy mediana jest w tym celu poważnie wymieniona w literaturze dydaktycznej lub badawczej. (2) Nie sądzę, że mój punkt widzenia jest mglisty; proste pytanie o to, co jest pierwsze, tj. jest praktycznie najważniejsze. Widzę nagłówki „gang więziony na ogół przez 200 lat” i wiem, dlaczego są drukowane, ale mimo to jest to dziwny sposób podsumowania. I odwrotnie, 200 zabitych w serii katastrof jest sprawą podstawową, a nie 5 katastrof, z których każda zabija średnio 40 osób. (Mały) problem polega na wyborze najbardziej odpowiedniego zestawienia.
Nick Cox,
@NickCox Punkt zajęty. Zgadzam się, że dbasz o sumę własnych inwestycji. Tworząc portfel i decydując o wadze portfela określonych papierów wartościowych, będziesz dbał o właściwości zwrotu tego papieru wartościowego. Nie zamierzam kupować WSZYSTKICH obligacji komunalnych, nie dbam bezpośrednio o sumę, ale dbam o średni zwrot z obligacji komunalnych? Jakie są właściwości ryzyka / zwrotu, gdybym dodał kilka do mojego portfela?
Matthew Gunn,
Zgoda. To terytorium tutaj.
Nick Cox,