Solidna (nieparametryczna) miara, taka jak współczynnik zmienności - IQR / mediana czy alternatywa?

12

Dla danego zestawu danych spread jest często obliczany albo jako odchylenie standardowe, albo jako IQR (zakres międzykwartylowy).

Podczas gdy a standard deviationjest znormalizowane (wyniki Z itp.), A zatem może być użyte do porównania spreadu z dwóch różnych populacji, nie jest tak w przypadku IQR, ponieważ próbki z dwóch różnych populacji mogą mieć wartości w dwóch całkiem różnych skalach,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

To, czego szukam, to solidna (nieparametryczna) miara, której mogę użyć do porównania wariancji w różnych populacjach.

Wybór 1: IQR / Median- byłoby to analogicznie do współczynnika zmienności , tj. Do .σμ

Wybór 2: Range / IQR

Pytanie: Jaki jest bardziej miarodajny sposób porównania różnic między populacjami? A jeśli jest to Choice 1, to czy Choice 2 jest przydatny do czegoś / ma sens, czy może jest to zasadniczo wadliwy środek?

Assad Ebrahim
źródło
Dzięki za bardzo pomocną dyskusję. Kilka użytecznych uzupełnień - różne definicje kwartylów, a tym samym IQR (John), odchylenie standardowe, które w rzeczywistości nie są standaryzowane (Harvey), i wykresy QQ jako narzędzie do porównania dwóch rozkładów (Peter). (+1 do wszystkich trzech odpowiedzi!)
Assad Ebrahim

Odpowiedzi:

13

Pytanie sugeruje, że odchylenie standardowe (SD) jest w jakiś sposób znormalizowane, więc można je wykorzystać do porównania zmienności dwóch różnych populacji. Skąd. Jak powiedzieli Peter i John, ta normalizacja odbywa się tak, jak przy obliczaniu współczynnika zmienności (CV), który jest równy SD / Mean. SD jest w tych samych jednostkach, co oryginalne dane. Natomiast CV jest współczynnikiem bez jednostki.

Twój wybór 1 (IQR / Mediana) jest analogiczny do CV. Podobnie jak CV, miałoby to sens tylko wtedy, gdy dane są danymi stosunku. Oznacza to, że zero to tak naprawdę zero. Waga zero to brak wagi. Długość zero nie jest długością. Jako kontrprzykład nie ma sensu temperatura w C lub F, ponieważ temperatura zero stopni (C lub F) nie oznacza, że ​​nie ma temperatury. Zwykłe przełączanie między użyciem skali C lub F dałoby inną wartość dla CV lub dla stosunku IQR / Mediana, co czyni oba te współczynniki bez znaczenia.

Zgadzam się z Peterem i Johnem, że twój drugi pomysł (Range / IQR) nie byłby bardzo odporny na wartości odstające, więc prawdopodobnie nie byłby użyteczny.

Harvey Motulsky
źródło
2
Harvey - dziękuję - masz rację, SD wcale nie jest znormalizowane ... Myliłem koncepcję z-scoresstandaryzacji wartości i normalizacji ich pozycji w rozkładzie pod względem średniej i odchylenia standardowego, z tym problemem, który polega na możliwości uszeregowania grup produktów według ich zmienności. Wybierając odpowiedź jako prawidłową, ponieważ podczas gdy Peter i John byli bardzo pomocni, twój ostrzegł mnie o pomieszaniu pojęć. Dobrze, że Choice 1 ma ograniczone zastosowanie w pobliżu mediany 0. Na szczęście w moim problemie nie muszę się o to martwić.
Assad Ebrahim
Chciałbym użyć tego w gazecie. Czy jest dobre miejsce, do którego się odwołuje (książka / gdzieś recenzowana)?
Ben Bolker,
15

Ważne jest, aby zdać sobie sprawę, że minimum i maksimum często nie są zbyt dobrymi statystykami do użycia (tj. Mogą się znacznie wahać od próbki do próbki i nie postępują zgodnie z rozkładem normalnym, jak powiedzmy, średnia może wynikać z twierdzenia o granicy centralnej) . W rezultacie zakres rzadko jest dobrym wyborem do niczego innego niż podanie zakresu tej dokładnej próbki . Dla prostej, nieparametrycznej statystyki reprezentującej zmienność, zakres międzykwartylowy jest znacznie lepszy. Chociaż widzę analogię między IQR / medianą a współczynnikiem zmienności, nie sądzę, aby była to najlepsza opcja.

Możesz spojrzeć na medianę absolutnego odchylenia od mediany ( MADM ). To znaczy: Podejrzewam, że lepszą nieparametryczną analogią do współczynnika zmienności byłoby MADM / mediana, a nie IQR / mediana.

MADM=median(|ximedian(x)|)
gung - Przywróć Monikę
źródło
1
Ciekawy wybór MADM/median, zasadniczo średniej różnicy od średniej wartości. Nazwijmy to Choice 3. Zgadzam się z twoją oceną Choice 1, więc nie ma, dziękuję. Kiedy sugerujesz „lepszy”, jakich atrybutów można użyć do porównania Choice 2 z Choice 3, aby zobaczyć, który jest lepszy?
Assad Ebrahim
1
Atrybuty, których użyjesz, będą zależeć od twoich celów dla metryki. Miałem jednak tylko na myśli, że jest to lepsza analogia dla CoV. Uwaga: trzeci kwartyl jest medianą danych, które są powyżej mediany, a pierwsza q jest medianą tych poniżej, więc IQR / 2 na dłuższą metę będzie równa MADM (nb, nie ma gwarancji, że będą równe w danej próbce). IQR będzie się odtąd jeszcze bardziej różnić od swojej prawdziwej wartości w popie, ale nie jestem pewien, jakie, jeśli w ogóle, implikacje, jakie by to miało, i stanowisko. błądzić. z IQR / 2 powinien być taki sam jak SE z MADM.
gung - Przywróć Monikę
Rozumiem, dziękuję za wyjaśnienie. Dobra uwaga na temat mediany interpretacji Q3 i Q1. Dam MADM/medianspróbować obok IQR/median. Porównanie obok siebie może być interesujące. (+1 za ciekawą sugestię)
Assad Ebrahim
6

„Wybór 1” jest tym, czego chcesz, jeśli używasz nieparametrycznych elementów do wspólnego celu zmniejszenia efektu wartości odstających. Nawet jeśli używasz go z powodu przekrzywienia, które ma również efekt uboczny polegający na tym, że zwykle ma skrajne wartości w ogonie, mogą to być wartości odstające. Na twój „Choice 2” mogą dramatycznie wpływać wartości odstające lub jakiekolwiek ekstremalne wartości, podczas gdy elementy pierwszego równania są względem nich stosunkowo odporne.

[Będzie to trochę zależało od tego, jaki rodzaj IQR wybierzesz (patrz pomoc R na kwantyle).]

Jan
źródło
Masz rację, powinienem był powiedzieć „jest to analogiczne do definicji współczynnika zmienności ... (ustalonego teraz w pytaniu)!
Assad Ebrahim
Dzięki za komentarz w zależności od tego, jaki rodzaj IQR wybierzesz ... - Nie zdawałem sobie sprawy, że istnieje wiele możliwych definicji kwartyli / kwantyli! Korzystam z wbudowanej quartile( )funkcji programu Excel , a następnie biorę IQR := Q3 - Q1. Moje liczby pochodzą z szeregu tygodniowych pomiarów w ciągu roku. Pomiary są miarami wydajności przemysłowej, a więc pochodzą z ciągłej dystrybucji. Różne populacje to różne grupy produktów. W tej sytuacji nie sądzę, że różne definicje byłyby bardzo różne w praktyce?
Assad Ebrahim
6

Wolę nie obliczać miar takich jak CV, ponieważ prawie zawsze mam dowolne pochodzenie zmiennej losowej. Jeśli chodzi o wybór solidnej miary dyspersji, trudno jest pokonać średnią różnicę Giniego, która jest średnią wszystkich możliwych wartości bezwzględnych różnic między dwiema obserwacjami. Aby uzyskać wydajne obliczenia, patrz na przykład funkcja rmspakietu R. GiniMdW normalności średnia różnica Giniego wynosi 0,98 tak samo skutecznie jak SD w szacowaniu dyspersji.

Frank Harrell
źródło
3

Podobnie jak @John, nigdy nie słyszałem o tej definicji współczynnika zmienności. Nie nazwałbym tego tak, że gdybym go użył, zamieszałby ludzi.

„Który jest najbardziej przydatny?” będzie zależeć od tego, do czego chcesz go użyć. Z pewnością wybór 1 jest bardziej odporny na wartości odstające, jeśli jesteś pewien, że tego właśnie chcesz. Ale jaki jest cel porównania dwóch dystrybucji? Co próbujesz zrobić?

Jedną z możliwości jest ujednolicenie obu miar, a następnie spojrzenie na podsumowania.

Kolejny to wykres QQ.

Jest też wiele innych.

Peter Flom - Przywróć Monikę
źródło
Dobra uwaga - powinienem powiedzieć analogicznie do współczynnika zmienności (dokonałem korekty).
Assad Ebrahim
Moje liczby pochodzą z szeregu tygodniowych pomiarów w ciągu roku. Pomiary są miarami wydajności przemysłowej, a więc pochodzą z ciągłej dystrybucji. Różne populacje są różnymi grupami produktów i mam około 50 grup produktów. To, co próbuję zrobić, to móc porównać naturalną zmienność między różnymi grupami produktów. W szczególności chcę mieć możliwość uszeregowania grup produktów według malejącej kolejności zmienności.
Assad Ebrahim
Co masz na myśli „ujednolicić oba miary, a następnie spojrzeć na podsumowania”? Myślałem, że Choice 1 je standaryzuje ...!
Assad Ebrahim
2

W tym artykule przedstawiono dwie dobre solidne alternatywy dla współczynnika zmienności. Jednym z nich jest przedział międzykwartylowy podzielony przez medianę, to znaczy:

IQR / mediana = (K3-Q1) / mediana

Drugim jest mediana bezwzględnego odchylenia podzielona przez medianę, to znaczy:

MAD / mediana

Porównują je i na ogół stwierdzają, że drugi jest nieco mniej zmienny i prawdopodobnie lepszy dla większości aplikacji.

Armando
źródło