Wykorzystanie mediany do obliczania wariancji

10

Mam losową zmienną 1-D, która jest niezwykle wypaczona. Aby znormalizować ten rozkład, chcę raczej użyć mediany niż średniej. moje pytanie brzmi: czy mogę obliczyć wariancję rozkładu przy użyciu mediany we wzorze zamiast średniej?

tzn. czy mogę wymienić

Var(X)=[(Ximean(X))2]/n

z

Var(X)=[(Ximedian(X))2]/n

Moje rozumowanie jest takie, że skoro wariancja jest miarą rozprzestrzeniania się w stosunku do głównej tendencji rozkładu, nie powinno to stanowić problemu, ale staram się zweryfikować tę logikę.

Rahul Singh
źródło
1
Mediana centrując zmienne, a następnie dzieląc ją przez MAD (mediana bezwzględnego odchylenia), możesz utworzyć medianę standaryzowanego rozkładu.
Mike Hunter
5
Możesz to zrobić! Ale myślę, że sprawiedliwie jest nazywać to wysoce niestandardowym i sugerować, że potrzebujesz teorii i / lub symulacji, aby poprzeć to, a nie tylko swoją intuicję. Podejrzewam, że będzie mniej odporny niż standardowy estymator. Na przykład we wspólnym przypadku o skośnej prawicy mediana będzie mniejsza niż średnia, więc największe kwadratowe odchylenia (od mediany) będą zatem jeszcze większe! Najważniejsze jest to, że jeśli wariancja jest bardzo niewiarygodna, być może będziesz musiał pomyśleć o pomiarze spreadu zupełnie inaczej niż w różnych wersjach wariancji.
Nick Cox
1
Punkt ortogonalny: Czy „normalizacja” oznacza skalę w jakiś sposób, np. (Wartość lokalizacja) / skala, czy oznacza zbliżenie się do normy (gaussa)? -
Nick Cox
1
Podejście to jest z natury niespójne, ponieważ problemy, które rozwiązuje się poprzez zastąpienie średniej przez medianę, są powiększane przez zastosowanie wariancji zamiast solidnego estymatora spreadu.
whuber

Odpowiedzi:

9

Średnia minimalizuje błąd do kwadratu (lub normę L2, patrz tutaj lub tutaj ), więc naturalnym wyborem dla wariancji do pomiaru odległości od średniej jest użycie błędu do kwadratu (zobacz tutaj, dlaczego to zrobimy). Z drugiej strony, mediana minimalizuje błąd bezwzględny (norma L1), tj. Jest to wartość znajdująca się w „środku” twoich danych, więc absolutna odległość od mediany (tzw. Mediana Absolute Deviation lub MAD) wydaje się być lepsza miara stopnia zmienności wokół mediany. Możesz przeczytać więcej o tych relacjach w tym wątku .

Krótko mówiąc, wariancja różni się od MAD tym, w jaki sposób definiują one centralny punkt twoich danych, a to wpływa na sposób, w jaki mierzymy zmienność otaczających go punktów danych. Kwadratowe wartości sprawiają, że wartości odstające mają większy wpływ na punkt środkowy (średnia), podczas gdy w przypadku mediany wszystkie punkty mają taki sam wpływ na niego, więc odległość bezwzględna wydaje się bardziej odpowiednia.

Można to również wykazać za pomocą prostej symulacji. Jeśli porównasz wartości kwadratowych odległości od średniej i mediany, wtedy całkowita kwadratowa odległość jest prawie zawsze mniejsza od średniej niż od mediany. Z drugiej strony całkowita odległość bezwzględna jest mniejsza od mediany, a następnie od średniej. Kod R do przeprowadzenia symulacji znajduje się poniżej.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

W przypadku zastosowania mediany zamiast średniej w oszacowaniu takiej „wariancji” doprowadziłoby to do wyższych oszacowań, niż w przypadku zastosowania średniej w tradycyjny sposób.

Nawiasem mówiąc, relacje między normami L1 i L2 można rozpatrywać również w kontekście bayesowskim, jak w tym wątku .

Tim
źródło