Istnieje kilka statystyk podsumowujących. Jeśli chcesz opisać rozkład rozkładu, możesz użyć na przykład odchylenia standardowego lub współczynnika Giniego .
Wiem, że odchylenie standardowe opiera się na tendencji centralnej, tj. Odchyleniu od średniej, a współczynnik Gini to ogólny pomiar dyspersji. Wiem również, że współczynnik Giniego ma dolną i górną granicę [0 1], a odchylenie standardowe nie . Te właściwości są dobrze znane, ale jakie spostrzeżenia może dać standardowe odchylenie, którego Gini nie może i odwrotnie? Gdybym musiał wybrać jeden z dwóch, jakie są zalety korzystania z jednego w porównaniu do drugiego, jeśli chodzi o bycie informacyjnym i wnikliwości.
standard-deviation
descriptive-statistics
gini
Olivier_s_j
źródło
źródło
Odpowiedzi:
Dwie rzeczy do rozważenia
Gini jest niezależny od skali, podczas gdy SD jest w oryginalnych jednostkach
Załóżmy, że mamy miarę ograniczoną powyżej i poniżej. SD przyjmuje maksymalną wartość, jeśli połowa pomiarów jest na każdej granicy, podczas gdy Gini przyjmuje maksimum, to jedna jest na jednej granicy, a cała reszta na drugiej.
źródło
Współczynnik Giniego jest niezmienny dla skali i jest ograniczony, odchylenie standardowe jest niezmienne dla przesunięcia i nieograniczony, więc trudno jest je bezpośrednio porównać. Teraz możesz zdefiniować wersję odchylenia standardowego niezmienną w skali, dzieląc przez średnią (współczynnik zmienności).
Jednak indeks Giniego nadal opiera się na wartościach, a drugi na wartościach kwadratowych, więc można oczekiwać, że na drugi będzie większy wpływ wartości odstających (wartości zbyt niskie lub wysokie). Można to znaleźć w Miarach nierówności dochodów , F De Maio, 2007:
Tak więc współczynnik zmienności jest mniej solidny i wciąż nieograniczony. Aby zrobić kolejny krok, możesz usunąć średnią i zamiast tego podzielić przez bezwzględne odchylenie ( ). Do pewnego stosunek , który można ograniczyć, ponieważ dla wektora .ℓ 1 / ℓ 2 N ℓ 2 ( x ) ≤ ℓ 1 ( x ) ≤ √ℓ1(x−m)=∑|xn−m| ℓ1/ℓ2 N ℓ2(x)≤ℓ1(x)≤N−−√ℓ2(x)
Teraz masz, z indeksem Giniego i współczynnikiem , dwie interesujące miary rzadkości rozkładu, niezmiennej skali i ograniczonej.ℓ1/ℓ2
Są one porównywane w Porównując miary rzadkości, 2009. Przebadany pod kątem różnych naturalnych właściwości rzadkości (Robin Hood, Skalowanie, Rising Tide, Klonowanie, Bill Gates i Babies), indeks Gini wyróżnia się jako najlepszy. Ale jego kształt utrudnia korzystanie z funkcji utraty, a w tym kontekście można używać wersjiℓ1/ℓ2 .
Więc jeśli nie chcesz scharakteryzować rozkładu prawie Gaussa, jeśli chcesz zmierzyć rzadkość, użyj indeksu Giniego, jeśli chcesz promować rzadkość wśród różnych modeli, możesz wypróbować taki stosunek norm.
Wykład dodatkowy: Średnia różnica Giniego: lepsza miara zmienności dla rozkładów nienormalnych , Shlomo Yitzhaki, 2003, którego streszczenie może wydawać się interesujące:
źródło
Odchylenie standardowe ma skalę (powiedzmy ° K, metry, mmHg, ...). Zwykle wpływa to na naszą ocenę jego wielkości. Mamy więc tendencję do preferowania współczynnika zmienności lub nawet lepszego (na próbkach skończonych) błędu standardowego.
Współczynnik Giniego jest konstruowany na (skalowalnych) wartościach procentowych, a zatem nie ma skali na własnej jednostce (jak np. Liczba Macha). Użyj współczynnika Giniego, jeśli chcesz porównać równość udziałów w czymś wspólnym (udziały 100%). Zauważ, że dla tej aplikacji można również zastosować odchylenie standardowe, więc myślę, że twoje pytanie, aby porównać zalety i wady dotyczy tylko tego rodzaju aplikacji. W takim przypadku odchylenie standardowe byłoby również ograniczone do . Oba wskaźniki zależą od liczby (nieujemnych) akcji, ale w przeciwnym kierunku: Gini rośnie wraz ze wzrostem liczby, odchylenie standardowe maleje.[0,1]
źródło