Czy poniższa formuła jest odpowiednia, jeśli chcę zmierzyć błąd standardowy mediany w przypadku małej próbki o nietypowym rozkładzie (używam pytona)?
sigma=np.std(data)
n=len(data)
sigma_median=1.253*sigma/np.sqrt(n)
źródło
Czy poniższa formuła jest odpowiednia, jeśli chcę zmierzyć błąd standardowy mediany w przypadku małej próbki o nietypowym rozkładzie (używam pytona)?
sigma=np.std(data)
n=len(data)
sigma_median=1.253*sigma/np.sqrt(n)
Na podstawie niektórych komentarzy @ mary uważam, że następujące są właściwe. Wydaje się, że wybiera medianę, ponieważ próbka jest mała.
Jeśli wybrałeś medianę, ponieważ jest to mała próbka, która nie jest dobrym uzasadnieniem. Wybierasz medianę, ponieważ mediana jest ważną wartością. Mówi coś innego niż średnia. Możesz również wybrać go do niektórych obliczeń statystycznych, ponieważ jest odporny na niektóre problemy, takie jak wartości odstające lub przekrzywienie. Jednak mała próbka nie jest jednym z tych problemów, na który jest odporna. Na przykład, gdy wielkość próbki zmniejsza się, jest ona o wiele bardziej wrażliwa na pochylenie niż średnia.
Sokal i Rohlf podają tę formułę w książce Biometry (strona 139). W rubryce „Komentarze do zastosowania” piszą: Duże próbki z normalnych populacji. Obawiam się więc, że odpowiedź na twoje pytanie brzmi „nie”. Zobacz także tutaj .
Jednym ze sposobów uzyskania standardowego przedziału błędu i przedziału ufności dla mediany w małych próbkach o rozkładach niestandardowych byłoby ładowanie. Ten post zawiera linki do pakietów Pythona do ładowania.
Ostrzeżenie
@whuber zwrócił uwagę, że ładowanie mediany w małych próbkach nie jest zbyt pouczające, ponieważ uzasadnienia ładowania są asymptotyczne (patrz komentarze poniżej).
źródło
Im mniejszy rozmiar próbki, tym bardziej wątpliwe.
źródło