Standardowy błąd mediany

14

Czy poniższa formuła jest odpowiednia, jeśli chcę zmierzyć błąd standardowy mediany w przypadku małej próbki o nietypowym rozkładzie (używam pytona)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)
mary
źródło

Odpowiedzi:

12

Na podstawie niektórych komentarzy @ mary uważam, że następujące są właściwe. Wydaje się, że wybiera medianę, ponieważ próbka jest mała.

Jeśli wybrałeś medianę, ponieważ jest to mała próbka, która nie jest dobrym uzasadnieniem. Wybierasz medianę, ponieważ mediana jest ważną wartością. Mówi coś innego niż średnia. Możesz również wybrać go do niektórych obliczeń statystycznych, ponieważ jest odporny na niektóre problemy, takie jak wartości odstające lub przekrzywienie. Jednak mała próbka nie jest jednym z tych problemów, na który jest odporna. Na przykład, gdy wielkość próbki zmniejsza się, jest ona o wiele bardziej wrażliwa na pochylenie niż średnia.

Jan
źródło
Dzięki, John! Właściwie zdecydowałem się użyć mediany zamiast średniej z powodu, który właśnie napisałeś. Mam różne próbki, z których wszystkie mają rozkład nie gaussowski. Istnieją próbki zawierające więcej niż 50 punktów, inne zawierające mniej niż 10 punktów, ale dla wszystkich z nich uważam, że twój komentarz jest ważny, prawda?
mary
Przy tak niewielu punktach nie jestem pewien, co możesz powiedzieć o podstawowej dystrybucji. Jeśli porównujesz próbki zawierające mniej niż 10 z próbkami zawierającymi 50, a leżący u ich podstaw rozkład nie jest symetryczny, mediana pokaże efekt, nawet jeśli go nie ma, ponieważ będzie miał większe odchylenie w małej próbce niż w dużej. To znaczy nie.
John
W przyszłości lepiej rozwiąż swoje pytania i zapytaj o to, co naprawdę musisz wiedzieć. Powiedz, dlaczego zrobiłeś to, co do tej pory zrobiłeś i opisz dobrze dane. Otrzymasz znacznie lepsze odpowiedzi.
John
1
mała wielkość próby nie jest jednym z tych problemów, na które jest odporna ”, sama w sobie jest warta +1; reszta to bonus
Glen_b
W rzeczywistości Huber podkreśla w swojej książce, że nie ma jednej koncepcji solidności. Wartości odstające są odporne (i do tego właśnie jest mediana). Innym poglądem jest jednak odporność na błąd pomiaru i do tego właśnie służy średnia, ponieważ uśrednia te błędy pomiaru. Mediana jest jednak bardzo podatna na wahania błędów pomiaru, ponieważ mogą one wpływać na środek rozkładu tak samo źle jak ogony.
StasK
12

Sokal i Rohlf podają tę formułę w książce Biometry (strona 139). W rubryce „Komentarze do zastosowania” piszą: Duże próbki z normalnych populacji. Obawiam się więc, że odpowiedź na twoje pytanie brzmi „nie”. Zobacz także tutaj .

Jednym ze sposobów uzyskania standardowego przedziału błędu i przedziału ufności dla mediany w małych próbkach o rozkładach niestandardowych byłoby ładowanie. Ten post zawiera linki do pakietów Pythona do ładowania.

Ostrzeżenie

@whuber zwrócił uwagę, że ładowanie mediany w małych próbkach nie jest zbyt pouczające, ponieważ uzasadnienia ładowania są asymptotyczne (patrz komentarze poniżej).

COOLSerdash
źródło
Dziękuję za odpowiedź! Wiem, że ładowanie byłoby alternatywą, tylko zgadywałem, czy istnieje sposób zmierzenia błędu mediany w inny sposób. Czy odpowiedź brzmi „nie” również w przypadku błędu standardowego w metodzie MEAN (ta sama mała próbka nie gaussowska)?
mary
@mary Dla standardowego błędu średniej Sokal i Rohl piszą, że ma on zastosowanie do „[...] dowolnej populacji o skończonej wariancji”. Tak więc odpowiedź na błąd standardowy średniej wydaje się tak, możesz ją obliczyć. Sidenote: Istnieją jednak rozkłady (np. Rozkład Cauchy'ego), które nie mają określonej wariancji lub średniej iw takich przypadkach nie można obliczyć SEM.
COOLSerdash
5
tt
@whuber Dziękujemy za komentarz. Dobrze wiedzieć. Usunąłem zalecenie, aby ładować medianę w małych próbkach z mojej odpowiedzi.
COOLSerdash
1
Nie próbowałem sugerować, że to zła rada: chciałem jedynie wskazać jego (nieuniknione) ograniczenia. Uczenie się dużo z małych próbek jest trudne. Ale ładowanie małych próbek jest podwójnie obarczone, ponieważ nie ma uzasadnienia teoretycznego na ich poparcie (całe uzasadnienie jest asymptotyczne).
whuber
12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. Że asymptotyczna formuła wariancji działa dla małej próbki;
  2. Że oszacowana mediana jest wystarczająco zbliżona do prawdziwej mediany;
  3. Że estymator gęstości jądra daje dokładną wartość.

Im mniejszy rozmiar próbki, tym bardziej wątpliwe.

StasK
źródło
3
π21.253314