Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności?
Jedną rzeczą, o której mogę pomyśleć, może być zrozumienie obecności wartości odstających, tj. Jeśli mediana jest daleka od średniej, wówczas rozkład jest wypaczony i być może dane muszą zostać zbadane, aby zdecydować, co należy zrobić z wartościami odstającymi. Czy są jakieś inne zastosowania?
mathematical-statistics
mean
median
Legenda
źródło
źródło
Odpowiedzi:
W pewnym sensie używana jest średnia, ponieważ jest wrażliwa na dane. Jeśli rozkład jest symetryczny, a ogony są podobne do rozkładu normalnego, średnia jest bardzo skutecznym podsumowaniem tendencji centralnej. Mediana, mimo że jest solidna i dobrze zdefiniowana dla dowolnego ciągłego rozkładu, jest tylko tak skuteczna jak średnia, jeśli dane pochodzą z rozkładu normalnego. To ta względna nieefektywność mediany powstrzymuje nas przed użyciem jej nawet bardziej niż my. Względna nieefektywność przekłada się na niewielką absolutną nieefektywność, gdy wielkość próby staje się duża, więc dla dużej liczby możemy być bardziej wolni od winy za użycie mediany. n2π n
Warto zauważyć, że dla miary zmienności (rozprzestrzeniania się, dyspersji) istnieje bardzo solidny estymator, który jest 0,98 równie skuteczny jak odchylenie standardowe, a mianowicie średnia różnica Giniego. Jest to średnia bezwzględna różnica między dowolnymi dwoma obserwacjami. [Musisz pomnożyć standardowe odchylenie próbki przez stałą, aby oszacować tę samą ilość oszacowaną przez średnią różnicę Giniego.] Skuteczną miarą tendencji centralnej jest estymator Hodgesa-Lehmanna, tj. Mediana wszystkich średnich parowych. Użylibyśmy go więcej, gdyby jego interpretacja była prostsza.
źródło
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. R może wywołać trywialny program C, Fortran lub Ratfor, aby szybko się rozpalić. Pakiet ICSNP w języku R ma dość wydajną implementację ze swojąhl.loc
funkcją. Dla N = 5000 było 2,66 razy szybsze niż powyższy kod (całkowity czas 1,5 sekundy). Byłoby miło również uzyskać skuteczny przedział ufności.Wiele świetnych odpowiedzi już, ale cofając się i stając się bardziej podstawowym, powiedziałbym, że to dlatego, że odpowiedź zależy od pytania, które zadajesz. Średnia i mediana odpowiadają na różne pytania - czasem jedno jest właściwe, a czasem drugie.
Łatwo jest powiedzieć, że mediana powinna być stosowana, gdy występują wartości odstające, dla wypaczonych rozkładów, czy cokolwiek innego. Ale nie zawsze tak jest. Weź dochód - prawie zawsze zgłaszany z medianą, i zwykle tak jest. Ale jeśli patrzysz na siłę nabywczą całej społeczności, może to nie być właściwe. W niektórych przypadkach nawet tryb może być najlepszy (szczególnie jeśli dane są pogrupowane).
źródło
Gdy wartość jest dla nas śmieciem, nazywamy ją „nieprzypisową” i chcemy, aby analiza była dla niej solidna (i preferowała medianę); gdy ta sama wartość jest atrakcyjna, nazywamy ją „ekstremalną” i chcemy, aby analiza była na nią wrażliwa (i preferowała średnią). Dialektyka...
Średnia reaguje w równym stopniu na przesunięcie wartości, niezależnie od tego, gdzie w rozkładzie ma miejsce przesunięcie. Na przykład,
1 2 3 4 5
możesz zwiększyć dowolną wartość o 2 - wzrost średniej będzie taki sam. Reakcja Mediany jest mniej „spójna”: dodaj 2 do punktów danych 4 lub 5, a mediana nie wzrośnie; ale dodaj 2 do punktu 2 - aby przesunięcie przekroczyło medianę, a mediana zmieni się dramatycznie (znacznie zmieni się średnia).Średnia jest zawsze dokładnie zlokalizowana. Mediana nie; na przykład w zestawie
1 2 3 4
dowolną wartość od 2 do 3 można nazwać medianą. Dlatego analizy oparte na medianach nie zawsze są unikalnym rozwiązaniem.Mean to miejsce minimalnych odchyleń sumy do kwadratu. Wiele zadań optymalizacyjnych opartych na algebrze liniowej (w tym słynna regresja OLS) minimalizuje ten kwadratowy błąd, a zatem implikuje pojęcie średniej. Mediana umiejscowienia minimalnej sumy absolutnych odchyleń. Techniki optymalizacji w celu zminimalizowania takiego błędu są nieliniowe i są bardziej złożone / słabo znane.
źródło
Istnieje wiele odpowiedzi na to pytanie. Oto jeden, którego prawdopodobnie nie zobaczysz nigdzie indziej, więc zamieszczam go tutaj, ponieważ uważam, że jest to związane z tym tematem. Ludzie często wierzą, że ponieważ mediana jest uważana za solidny środek w odniesieniu do wartości odstających, jest również skuteczny dla większości wszystkiego. W rzeczywistości jest również uważany za odporny na odchylenie w przekrzywionych rozkładach. Te dwie solidne właściwości mediany są często nauczane razem. Można zauważyć, że leżące u podstaw wypaczone rozkłady również generują małe próbki, które wyglądają, jakby miały wartości odstające, a tradycyjną mądrością jest to, że w takich sytuacjach stosuje się mediany.
(tylko demonstracja, że jest to przekrzywiony i podstawowy kształt)
Zobaczmy teraz, co się stanie, jeśli spróbujemy z tego rozkładu różnych wielkości próby i obliczymy medianę i chcemy zobaczyć, jakie są między nimi różnice.
Jak widać z powyższego wykresu, mediana (na czerwono) jest znacznie bardziej wrażliwa na n niż na średnią. Jest to sprzeczne z pewną konwencjonalną mądrością dotyczącą korzystania z median o niskiej wartości ns, szczególnie jeśli rozkład może być wypaczony. Potwierdza to, że średnia jest znaną wartością, podczas gdy mediana jest wrażliwa na inne właściwości, z których jedną jest n.
Ta analiza jest podobna do Miller, J. (1988). Ostrzeżenie o medianie czasu reakcji. Journal of Experimental Psychology: Percepcja i wydajność człowieka , 14 (3): 539–543.
REWIZJA
Zastanawiając się nad kwestią pochylenia, pomyślałem, że wpływ na medianę może być po prostu dlatego, że w małych próbkach masz większe prawdopodobieństwo, że mediana jest na końcu rozkładu, podczas gdy średnia prawie zawsze będzie ważona wartościami bliższymi tryb. Dlatego, być może, gdyby ktoś tylko pobierał próbki z prawdopodobieństwem wartości odstających, to być może pojawiliby się te same wyniki.
Pomyślałem więc o sytuacjach, w których mogą wystąpić wartości odstające, a eksperymentatorzy mogą spróbować je wyeliminować.
Jeśli wartości odstające występowały konsekwentnie, na przykład jeden na każde próbkowanie danych, wówczas mediany są odporne na wpływ tej wartości odstającej i konwencjonalnej historii o stosowaniu median.
Ale zwykle tak nie jest.
Można znaleźć wartość odstającą w bardzo niewielu komórkach eksperymentu i zdecydować się na użycie mediany zamiast średniej w tym przypadku. Ponownie, mediana jest mocniejsza, ale jej rzeczywisty wpływ jest stosunkowo niewielki, ponieważ jest bardzo mało wartości odstających. Byłby to zdecydowanie częstszy przypadek niż powyższy, ale efekt zastosowania mediany byłby prawdopodobnie tak mały, że nie miałby większego znaczenia.
Być może częściej wartości odstające mogą być losowym składnikiem danych. Na przykład prawdziwa średnia i standardowe odchylenie populacji może wynosić około 0, ale istnieje procent czasu, w którym pobieramy próbki z populacji odstającej, gdzie średnia wynosi 3. Rozważ następującą symulację, w której tylko taka populacja jest pobierana, zmieniając próbkę rozmiar.
Mediana jest w kolorze czerwonym, a średnia w kolorze czarnym. Jest to podobne odkrycie do wypaczonej dystrybucji.
W stosunkowo praktycznym przykładzie zastosowania median w celu uniknięcia skutków wartości odstających można wymyślić sytuacje, w których na oszacowanie wpływa n znacznie bardziej, gdy stosuje się medianę niż gdy stosuje się średnią.
źródło
Na podstawie średniej łatwo jest obliczyć sumę dla wszystkich pozycji, np. Jeśli znasz średni dochód populacji i wielkość populacji, możesz natychmiast obliczyć całkowity dochód całej populacji.
Średnia jest łatwa do obliczenia w
O(n)
złożoności czasowej. Obliczanie mediany w czasie liniowym jest możliwe, ale wymaga więcej przemyślenia. Oczywiste rozwiązanie wymagające sortowania ma gorszą (O(n log n)
) złożoność czasową.I spekuluję, że istnieje inny powód, dla którego środek ten jest bardziej popularny niż mediana:
źródło
„Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności?”
W przypadkach, gdy wiadomo, że nie ma żadnych wartości odstających, na przykład gdy znamy proces generowania danych (na przykład w statystyce matematycznej).
Należy zwrócić uwagę na trywialne, że te dwie wielkości (średnia i mediana) w rzeczywistości nie mierzą tego samego i że większość użytkowników pyta o to pierwsze, kiedy tak naprawdę powinni być zainteresowani tym drugim (ten punkt dobrze ilustrują oparte na medianie testy Wilcoxona, które są łatwiej interpretowane niż testy t).
Następnie zdarzają się przypadki, w których z jakiegoś powodu lub z jakiegoś powodu jakieś regulacje narzucają użycie jego myśli.
źródło
Jeśli chodzi o obecność wartości odstających, istnieją pewne proste sposoby sprawdzenia danych.
Wartości odstające, prawie z definicji, pojawiają się w naszych danych, gdy coś się zmienia albo w procesie generowania danych, albo w procesie gromadzenia danych. tzn. dane przestają być jednorodne. Jeśli twoje dane nie są jednorodne, to ani średnia, ani mediana nie mają większego sensu, ponieważ próbujesz oszacować centralną tendencję dwóch oddzielnych zestawów danych, które zostały zmieszane razem.
Najlepszą metodą zapewnienia jednorodności jest zbadanie procesów generowania i gromadzenia danych, aby upewnić się, że wszystkie dane pochodzą z jednego zestawu procesów. Tutaj nic nie przebije mocy mózgu.
W ramach dodatkowej kontroli możesz przejść do jednego z kilku testów statystycznych: chi-kwadrat, test Q Dixona, test Grubba lub karta kontrolna / karta zachowania procesu (zwykle X-słupek R lub XmR). Z mojego doświadczenia wynika, że kiedy można zamówić dane w trakcie ich gromadzenia, wykresy zachowań procesu lepiej wykrywają wartości odstające niż testy wartości odstających. To zastosowanie wykresów może być nieco kontrowersyjne, ale uważam, że jest całkowicie zgodne z pierwotnymi intencjami Shewharta i jest to użycie, które jest wyraźnie zalecane przez Donalda Wheelera. Niezależnie od tego, czy używasz testów wartości odstających, czy wykresów zachowania procesu, pamiętaj, że wykryta „wartość odstająca” jest jedynie sygnałem potencjalnymniejednorodność, którą należy dalej zbadać. Rzadko ma sens wyrzucanie punktów danych, jeśli nie masz wyjaśnienia, dlaczego były to wartości odstające.
Jeśli używasz R, pakiet wartości odstających zapewnia testy wartości odstających, a dla wykresów zachowania procesu są qcc , IQCC i qAnalyst. Mam osobiste preferencje dotyczące użycia i wydajności pakietu qcc.
źródło
Kiedy możesz chcieć tego środka?
Przykłady z finansów:
Tworząc zdywersyfikowany portfel, podejmując decyzję, w co inwestować i ile, średnia i kowariancja zwrotów prawdopodobnie będzie miała istotny wpływ na problem optymalizacji.
źródło