Czy istnieje więcej niż jedna formuła „mediana”?

16

W mojej pracy, gdy osoby odnoszą się do „średniej” wartości zbioru danych, zwykle odnoszą się do średniej arytmetycznej (tj. „Średniej” lub „wartości oczekiwanej”). Gdybym podał średnią geometryczną , ludzie prawdopodobnie pomyśleliby, że jestem złośliwy lub nieprzydatny, ponieważ definicja „środka” jest znana z góry.

Próbuję ustalić, czy istnieje wiele definicji „mediany” zestawu danych. Na przykład jedna z definicji podanych przez współpracownika w celu znalezienia mediany zbioru danych z parzystą liczbą elementów to:

Algorytm „A”

  • Podziel liczbę elementów przez dwa, zaokrąglaj w dół.
  • Ta wartość jest indeksem mediany.
  • tzn. dla następującego zestawu mediana wynosiłaby 5.
  • [4, 5, 6, 7]

Wydaje się to mieć sens, choć zaokrąglanie w dół wydaje się nieco arbitralne.

Algorytm „B”

W każdym razie inny kolega zaproponował osobny algorytm, który znajdował się w jego podręczniku statystyk (trzeba uzyskać nazwisko i autora):

  • Podziel liczbę elementów przez 2 i zachowaj kopię zaokrąglonych w górę i zaokrąglonych w dół liczb całkowitych. Nazwij je n_loi n_hi.
  • Weź średnią arytmetyczną elementów w n_loi n_hi.
  • tzn. dla następującego zestawu mediana wynosiłaby (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Wydaje się to błędne, ponieważ 5.5w tym przypadku wartość mediany nie znajduje się w oryginalnym zestawie danych. Kiedy zamieniliśmy algorytm „A” na „B” w jakimś kodzie testowym, złamał się on okropnie (zgodnie z naszymi oczekiwaniami).

Pytanie

Czy istnieje formalna „nazwa” dla tych dwóch podejść do obliczania mediany zbioru danych? tj. „mediana mniejszej z dwóch” w porównaniu z „medianą średnich elementów i stworzyć nowe dane”?

Chmura
źródło
16
Nigdy nie widziałem algorytmu „A” uważanego za medianę. Nie powinno być problemu, że opisowa statystyka centralnej tendencji danych nie znajduje się wśród samych danych: w końcu większość środków również nie znajduje się w danych. Bardziej podstawową właściwością, jaką chcielibyśmy mieć medianę, jest to, że nie zmienia się ona po odwróceniu sekwencji danych, ponieważ porządkowanie danych od najmniejszej do największej lub największej do najmniejszej jest arbitralną kwestią gustu. Z tego powodu większość autorów definiuje medianę jak w algorytmie „B”, ponieważ jest to zdecydowanie najprostsza możliwa procedura niezmiennika kolejności.
whuber
3
@whuber Algorytm „A” jest czasem nazywany niską medianą . Istnieje również oczywiście odpowiednia wysoka mediana. Zazwyczaj mediana jest średnią z dwóch (które mogą, ale nie muszą być jednym elementem z zestawu, nad którym mediana jest obliczana).
user603
8
Dobry czas i miejsce na powtórzenie komentarza, że ​​dwie centralne wartości w uporządkowanej próbce z parzystą liczbą obserwacji - jak 3 i 4 w 1, 2, 3, 4, 5, 6 - należy uważać za komików (niezależnie dowodzone przez SM Stiglera, R. Koenkera i bez wątpienia innych).
Nick Cox,
3
Czy w obu algorytmach brakuje kluczowego kroku sortowania danych?
Emil
3
Jeśli potrzebujesz, aby Twoja „mediana” zawsze była elementem zestawu danych, być może rzeczywiście szukasz medoidu .
Ilmari Karonen,

Odpowiedzi:

23

TL; DR - Nie jestem świadomy tego, że konkretne nazwy nadawane są różnym estymatorom przykładowych median. Metody szacowania przykładowych statystyk z niektórych danych są dość wybredne, a różne zasoby podają różne definicje.

W Hogg, McKean i Craig's Introduction to Mathematical Statistics autorzy podają definicję median losowych próbek , ale tylko w przypadku nieparzystej liczby próbek! Autorzy piszą

nY(n+1)/2)

Yjaja

n

Algorytm B ma właściwość polegającą na tym, że połowa danych spada powyżej wartości, a połowa danych spada poniżej wartości. W świetle definicji mediany zmiennej losowej wydaje się to przyjemne.


To, czy dany estymator psuje testy jednostkowe, jest właściwością testów jednostkowych - testy jednostkowe napisane na konkretnym estymatorze niekoniecznie będą obowiązywać, gdy zastąpisz inny estymator. W idealnym przypadku testy jednostkowe wybrano, ponieważ odzwierciedlają one krytyczne potrzeby Twojej organizacji, a nie z powodu argumentów doktrynalnych dotyczących definicji.

Sycorax mówi Przywróć Monikę
źródło
2
(+1) Możemy również dodać, że (1) Gdy wartości pochodzą z wag, wówczas definicja median w zasadzie i w praktyce musi to obejmować. (Jak dotąd, w odpowiedziach, wszystkie wagi są równe, dlatego są nieistotne). Podczas gdy interpolacja liniowa w skumulowanej sumie wag jest najprostsza, istnieją sytuacje, w których inne rodzaje interpolacji mogą mieć sens. (2) Bardziej rygorystyczne definicje mediany mają zwykle obejmować zarówno dyskretne, ciągłe, jak i hybrydowe rozkłady, w tym te z gdzieś szczytami prawdopodobieństwa.
Nick Cox,
25

Co mówi @Sycorax.

W rzeczywistości istnieje zaskakująco wiele definicji ogólnych kwantyli, a zwłaszcza median. Hyndman i Fan (1996, The American Statistician ) podają ogólny zarys, że AFAIK jest wciąż obszerny. Różne typy nie mają formalnych nazw. Być może będziesz musiał po prostu wyjaśnić, jakiego typu używasz. (Często nie robi to dużej różnicy w przypadku zestawów danych o realistycznych rozmiarach).

Należy zauważyć, że powszechnie przyjmuje się, że wartość nie jest obecna w zbiorze danych jako mediana, np. 5,5 jako mediana dla (4, 5, 6, 7). To jest domyślne zachowanie dla R:

> median(4:7)
[1] 5.5

R's median()domyślnie używa typu 7 z klasyfikacji Hyndman & Fan.

Stephan Kolassa
źródło
6
+1 dla „Często nie robi dużej różnicy w przypadku zestawów danych o realistycznych rozmiarach”. Ukradnę to, zamiast mojego zwykłego „jeśli robi to istotną różnicę, prawdopodobnie potrzebujesz więcej danych”. :)
Jason
1
Jeśli masz zmienną binarną o wartościach 0, 1 (powiedzmy) i około równej liczbie zer i 1s (średnia blisko 0,5), wówczas duża wielkość próby niekoniecznie zatrzyma przesuwanie raportowanej mediany w przód iw tył między 0, 0,5 i 1. Mosteller i Tukey ( Analiza danych i regresja 1977) przytaczają silnie bimodalne i prawie symetryczne rozkłady jako przypadki, w których mediana może nie zachowywać się szczególnie dobrze.
Nick Cox,
3

W madfunkcji R używa terminów „lo-mediana” do opisania algorytmu A, „hi-mediana” do opisania zaokrąglania w górę, a po prostu „mediana” do opisania algorytmu B (który, jak zauważyli inni, jest zdecydowanie najczęstsza definicja).

Co ciekawe, median()funkcja R nie ma takiej opcji ! (Ale R quantile()ma typedobrą kontrolę).

Darren Cook
źródło