Pracuję na mocno wypaczonych danych, więc używam mediany zamiast środka do podsumowania głównej tendencji. Chciałbym mieć miary dyspersji Choć często widzę ludzi raportowania średnią odchylenie standardowe lub mediany kwartyle podsumowanie tendencji centralnej, to jest ok zgłosić mediana medianę bezwzględnego dyspersji (MAD) ? Czy istnieją potencjalne problemy z tym podejściem?
Uważam to podejście za bardziej kompaktowe i intuicyjne niż zgłaszanie dolnych i górnych kwartylów, szczególnie w dużych tabelach pełnych liczb.
Odpowiedzi:
Nie sądzę, mediana szalony jest właściwe w ogóle.±
Możesz łatwo budować rozkłady, w których 50% danych jest ułamkowo niższe niż mediana, a 50% danych jest znacznie większa niż mediana - np. (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , 1000000). Zapis 5.10 0.10 wydaje się sugerować, że wokół jest trochę masy (mediana + szaleństwo ~ = 5,10), i to po prostu nie zawsze tak jest, i nie masz pojęcia, że istnieje duża masa ponad 1000000.±
Kwartyle / kwantyle dają znacznie lepsze wyobrażenie o rozkładzie kosztem dodatkowej liczby - (4.9,5.0,1000000.0). Wątpię, aby pochylenie było trzecim momentem i wydaje mi się, że potrzebuję trzech liczb / wymiarów, aby intuicyjnie wizualizować przekrzywiony rozkład.
To powiedziawszy, nie ma w tym nic złego - po prostu argumentuję tutaj o intuicji i czytelności. Jeśli używasz go dla siebie lub swojej drużyny, zwariuj. Myślę jednak, że wprowadziłoby to zamieszanie wśród szerokiej publiczności.
źródło
Zastosowanie MAD sprowadza się do założenia, że rozkład leżący u podstaw jest symetryczny (odchylenia powyżej mediany i poniżej mediany są traktowane jednakowo). Jeśli Twoje dane są wypaczone, jest to oczywiście błędne: doprowadzi do przeszacowania prawdziwej zmienności twoich danych.
Na szczęście możesz wybrać jedną z kilku alternatyw dla szalonych, które są równie solidne, prawie tak samo łatwe do obliczenia i nie zakładają symetryczności.
Zobacz Rousseeuw i Croux 1992 . Pojęcia te są dobrze wyjaśnione tutaj i realizowane tutaj . Te dwa estymatory należą do tak zwanej klasy statystyki U, dla której istnieje dobrze rozwinięta teoria.
źródło
„W tym artykule badany jest dokładniejszy wskaźnik asymetrii. W szczególności zaproponowano użycie wariancji lewej i prawej oraz wprowadzono indeks asymetrii oparty na nich. Kilka przykładów pokazuje jego przydatność. Pytanie o dokładniejszą ocenę dyspersji danych o średniej pojawia się we wszystkich niesymetrycznych rozkładach prawdopodobieństwa. Gdy rozkład populacji jest niesymetryczny, średnia i wariancja (lub odchylenie standardowe) zestawu danych nie dają dokładnego wyobrażenia o rozkładzie danych, zwłaszcza kształt i symetria. Argumentuje się, że średnia, proponowana lewa wariancja (lub lewe odchylenie standardowe) i prawa wariancja (lub prawe odchylenie standardowe) dokładniej opisują zestaw danych. ”
Połączyć
źródło