W mojej pracy, gdy osoby odnoszą się do „średniej” wartości zbioru danych, zwykle odnoszą się do średniej arytmetycznej (tj. „Średniej” lub „wartości oczekiwanej”). Gdybym podał średnią geometryczną , ludzie prawdopodobnie pomyśleliby, że jestem złośliwy lub nieprzydatny, ponieważ definicja „środka” jest znana z góry.
Próbuję ustalić, czy istnieje wiele definicji „mediany” zestawu danych. Na przykład jedna z definicji podanych przez współpracownika w celu znalezienia mediany zbioru danych z parzystą liczbą elementów to:
Algorytm „A”
- Podziel liczbę elementów przez dwa, zaokrąglaj w dół.
- Ta wartość jest indeksem mediany.
- tzn. dla następującego zestawu mediana wynosiłaby
5
. [4, 5, 6, 7]
Wydaje się to mieć sens, choć zaokrąglanie w dół wydaje się nieco arbitralne.
Algorytm „B”
W każdym razie inny kolega zaproponował osobny algorytm, który znajdował się w jego podręczniku statystyk (trzeba uzyskać nazwisko i autora):
- Podziel liczbę elementów przez 2 i zachowaj kopię zaokrąglonych w górę i zaokrąglonych w dół liczb całkowitych. Nazwij je
n_lo
in_hi
. - Weź średnią arytmetyczną elementów w
n_lo
in_hi
. - tzn. dla następującego zestawu mediana wynosiłaby
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Wydaje się to błędne, ponieważ 5.5
w tym przypadku wartość mediany nie znajduje się w oryginalnym zestawie danych. Kiedy zamieniliśmy algorytm „A” na „B” w jakimś kodzie testowym, złamał się on okropnie (zgodnie z naszymi oczekiwaniami).
Pytanie
Czy istnieje formalna „nazwa” dla tych dwóch podejść do obliczania mediany zbioru danych? tj. „mediana mniejszej z dwóch” w porównaniu z „medianą średnich elementów i stworzyć nowe dane”?
źródło
Odpowiedzi:
TL; DR - Nie jestem świadomy tego, że konkretne nazwy nadawane są różnym estymatorom przykładowych median. Metody szacowania przykładowych statystyk z niektórych danych są dość wybredne, a różne zasoby podają różne definicje.
W Hogg, McKean i Craig's Introduction to Mathematical Statistics autorzy podają definicję median losowych próbek , ale tylko w przypadku nieparzystej liczby próbek! Autorzy piszą
Algorytm B ma właściwość polegającą na tym, że połowa danych spada powyżej wartości, a połowa danych spada poniżej wartości. W świetle definicji mediany zmiennej losowej wydaje się to przyjemne.
To, czy dany estymator psuje testy jednostkowe, jest właściwością testów jednostkowych - testy jednostkowe napisane na konkretnym estymatorze niekoniecznie będą obowiązywać, gdy zastąpisz inny estymator. W idealnym przypadku testy jednostkowe wybrano, ponieważ odzwierciedlają one krytyczne potrzeby Twojej organizacji, a nie z powodu argumentów doktrynalnych dotyczących definicji.
źródło
Co mówi @Sycorax.
W rzeczywistości istnieje zaskakująco wiele definicji ogólnych kwantyli, a zwłaszcza median. Hyndman i Fan (1996, The American Statistician ) podają ogólny zarys, że AFAIK jest wciąż obszerny. Różne typy nie mają formalnych nazw. Być może będziesz musiał po prostu wyjaśnić, jakiego typu używasz. (Często nie robi to dużej różnicy w przypadku zestawów danych o realistycznych rozmiarach).
Należy zauważyć, że powszechnie przyjmuje się, że wartość nie jest obecna w zbiorze danych jako mediana, np. 5,5 jako mediana dla (4, 5, 6, 7). To jest domyślne zachowanie dla R:
R's
median()
domyślnie używa typu 7 z klasyfikacji Hyndman & Fan.źródło
W
mad
funkcji R używa terminów „lo-mediana” do opisania algorytmu A, „hi-mediana” do opisania zaokrąglania w górę, a po prostu „mediana” do opisania algorytmu B (który, jak zauważyli inni, jest zdecydowanie najczęstsza definicja).Co ciekawe,
median()
funkcja R nie ma takiej opcji ! (Ale Rquantile()
matype
dobrą kontrolę).źródło