Dla danego zestawu danych spread jest często obliczany albo jako odchylenie standardowe, albo jako IQR (zakres międzykwartylowy).
Podczas gdy a standard deviation
jest znormalizowane (wyniki Z itp.), A zatem może być użyte do porównania spreadu z dwóch różnych populacji, nie jest tak w przypadku IQR, ponieważ próbki z dwóch różnych populacji mogą mieć wartości w dwóch całkiem różnych skalach,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
To, czego szukam, to solidna (nieparametryczna) miara, której mogę użyć do porównania wariancji w różnych populacjach.
Wybór 1:
IQR / Median
- byłoby to analogicznie do współczynnika zmienności , tj. Do .
Wybór 2:
Range / IQR
Pytanie: Jaki jest bardziej miarodajny sposób porównania różnic między populacjami? A jeśli jest to Choice 1, to czy Choice 2 jest przydatny do czegoś / ma sens, czy może jest to zasadniczo wadliwy środek?
źródło
Odpowiedzi:
Pytanie sugeruje, że odchylenie standardowe (SD) jest w jakiś sposób znormalizowane, więc można je wykorzystać do porównania zmienności dwóch różnych populacji. Skąd. Jak powiedzieli Peter i John, ta normalizacja odbywa się tak, jak przy obliczaniu współczynnika zmienności (CV), który jest równy SD / Mean. SD jest w tych samych jednostkach, co oryginalne dane. Natomiast CV jest współczynnikiem bez jednostki.
Twój wybór 1 (IQR / Mediana) jest analogiczny do CV. Podobnie jak CV, miałoby to sens tylko wtedy, gdy dane są danymi stosunku. Oznacza to, że zero to tak naprawdę zero. Waga zero to brak wagi. Długość zero nie jest długością. Jako kontrprzykład nie ma sensu temperatura w C lub F, ponieważ temperatura zero stopni (C lub F) nie oznacza, że nie ma temperatury. Zwykłe przełączanie między użyciem skali C lub F dałoby inną wartość dla CV lub dla stosunku IQR / Mediana, co czyni oba te współczynniki bez znaczenia.
Zgadzam się z Peterem i Johnem, że twój drugi pomysł (Range / IQR) nie byłby bardzo odporny na wartości odstające, więc prawdopodobnie nie byłby użyteczny.
źródło
z-scores
standaryzacji wartości i normalizacji ich pozycji w rozkładzie pod względem średniej i odchylenia standardowego, z tym problemem, który polega na możliwości uszeregowania grup produktów według ich zmienności. Wybierając odpowiedź jako prawidłową, ponieważ podczas gdy Peter i John byli bardzo pomocni, twój ostrzegł mnie o pomieszaniu pojęć. Dobrze, że Choice 1 ma ograniczone zastosowanie w pobliżu mediany 0. Na szczęście w moim problemie nie muszę się o to martwić.Ważne jest, aby zdać sobie sprawę, że minimum i maksimum często nie są zbyt dobrymi statystykami do użycia (tj. Mogą się znacznie wahać od próbki do próbki i nie postępują zgodnie z rozkładem normalnym, jak powiedzmy, średnia może wynikać z twierdzenia o granicy centralnej) . W rezultacie zakres rzadko jest dobrym wyborem do niczego innego niż podanie zakresu tej dokładnej próbki . Dla prostej, nieparametrycznej statystyki reprezentującej zmienność, zakres międzykwartylowy jest znacznie lepszy. Chociaż widzę analogię między IQR / medianą a współczynnikiem zmienności, nie sądzę, aby była to najlepsza opcja.
Możesz spojrzeć na medianę absolutnego odchylenia od mediany ( MADM ). To znaczy: Podejrzewam, że lepszą nieparametryczną analogią do współczynnika zmienności byłoby MADM / mediana, a nie IQR / mediana.
źródło
MADM/median
, zasadniczo średniej różnicy od średniej wartości. Nazwijmy to Choice 3. Zgadzam się z twoją oceną Choice 1, więc nie ma, dziękuję. Kiedy sugerujesz „lepszy”, jakich atrybutów można użyć do porównania Choice 2 z Choice 3, aby zobaczyć, który jest lepszy?MADM/median
spróbować obokIQR/median
. Porównanie obok siebie może być interesujące. (+1 za ciekawą sugestię)„Wybór 1” jest tym, czego chcesz, jeśli używasz nieparametrycznych elementów do wspólnego celu zmniejszenia efektu wartości odstających. Nawet jeśli używasz go z powodu przekrzywienia, które ma również efekt uboczny polegający na tym, że zwykle ma skrajne wartości w ogonie, mogą to być wartości odstające. Na twój „Choice 2” mogą dramatycznie wpływać wartości odstające lub jakiekolwiek ekstremalne wartości, podczas gdy elementy pierwszego równania są względem nich stosunkowo odporne.
[Będzie to trochę zależało od tego, jaki rodzaj IQR wybierzesz (patrz pomoc R na kwantyle).]
źródło
quartile( )
funkcji programu Excel , a następnie bioręIQR := Q3 - Q1
. Moje liczby pochodzą z szeregu tygodniowych pomiarów w ciągu roku. Pomiary są miarami wydajności przemysłowej, a więc pochodzą z ciągłej dystrybucji. Różne populacje to różne grupy produktów. W tej sytuacji nie sądzę, że różne definicje byłyby bardzo różne w praktyce?Wolę nie obliczać miar takich jak CV, ponieważ prawie zawsze mam dowolne pochodzenie zmiennej losowej. Jeśli chodzi o wybór solidnej miary dyspersji, trudno jest pokonać średnią różnicę Giniego, która jest średnią wszystkich możliwych wartości bezwzględnych różnic między dwiema obserwacjami. Aby uzyskać wydajne obliczenia, patrz na przykład funkcja
rms
pakietu R.GiniMd
W normalności średnia różnica Giniego wynosi 0,98 tak samo skutecznie jak SD w szacowaniu dyspersji.źródło
Podobnie jak @John, nigdy nie słyszałem o tej definicji współczynnika zmienności. Nie nazwałbym tego tak, że gdybym go użył, zamieszałby ludzi.
„Który jest najbardziej przydatny?” będzie zależeć od tego, do czego chcesz go użyć. Z pewnością wybór 1 jest bardziej odporny na wartości odstające, jeśli jesteś pewien, że tego właśnie chcesz. Ale jaki jest cel porównania dwóch dystrybucji? Co próbujesz zrobić?
Jedną z możliwości jest ujednolicenie obu miar, a następnie spojrzenie na podsumowania.
Kolejny to wykres QQ.
Jest też wiele innych.
źródło
W tym artykule przedstawiono dwie dobre solidne alternatywy dla współczynnika zmienności. Jednym z nich jest przedział międzykwartylowy podzielony przez medianę, to znaczy:
IQR / mediana = (K3-Q1) / mediana
Drugim jest mediana bezwzględnego odchylenia podzielona przez medianę, to znaczy:
MAD / mediana
Porównują je i na ogół stwierdzają, że drugi jest nieco mniej zmienny i prawdopodobnie lepszy dla większości aplikacji.
źródło