Jeśli zdefiniujesz jako posortowaną wersję oryginalnych danych X 1 , X 2 , … , X N , wówczas mediana zostanie zdefiniowana jako:O1, O2), … , ON.X1, X2), … , XN.
M e d i a n ({ O1, O2), … , ON.} ) = { O( N+ 1 ) / 2( ON./ 2+ ON./ 2+1) / 2i f N. I s o d d o t h e r w i s e
Bez porządkowania danych możesz użyć definicji mediany geometrycznej, aby zdefiniować medianę w jednym wymiarze:
M e d i a n ({ X1, X2), … , XN.} ) = argminy∑i = 1N.∣∣Xja- y∣∣
Zauważ, że niekoniecznie oznacza to unikalną medianę, gdy liczba parzystych punktów jest równa; na przykład dowolna liczba optymalizuje cel z .y∈ [ 3 , 4 ]X= { 2 , 3 , 4 , 5 }
Jednym z alternatywnych sposobów wyrażenia średniej jest oszacowanie „najmniejszych kwadratów”:
Wybranie jako średniej daje najmniejszą wartość sumy kwadratów błędów.m
Teraz medianę można wyrazić jako oszacowanie „najmniejszych odchyleń bezwzględnych”:
Wybranie jako mediany daje najmniejszą wartość sumy błędów bezwzględnych.m
źródło
Mediana to wartość odpowiadająca połowie kwantyla, czyli połowa wartości jest wyższa, połowa jest mniejsza (wybacz mi za ignorowanie przypadków z równością lub gdy zbiór jest parzysty ...). Tak, że biorąc pod uwagę, że plik pdf zestawu danych jest znany, rozkład skumulowany można łatwo ocenić. Zwracając uwagę na tej funkcji, a następniepX P X m e d i a n = P - 1 X ( 1X1⋅Xn PX
Weźmy na przykład przypadek dla kątów w tej metodzie użytej w tym artykule przeglądowym do wyrównywania histogramu. Lewy dolny panel pokazuje pdf kątów w zestawie naturalnych obrazów. to rozkład skumulowany, a mediana to wartość odpowiadająca wartości , czyli w tym przypadku około .P ( θ ) θ 1 / 2 0p(θ) P(θ) θ 1/2 0
źródło