Używam zwykłego estymatora kurtozy, , ale zauważam, że nawet małe „odstające” w moim rozkładzie empirycznym , tj. małe szczyty daleko od centrum, wpływają na to ogromnie. Czy istnieje estymator kurtozy, który jest bardziej niezawodny?
Istnieje kilka. W tym linku znajdziesz wyczerpujące porównanie z nieoznakowaną wersją artykułu (odpowiednie odniesienie na dole tej odpowiedzi).
Ze względu na ograniczenia problemu rozkład najbardziej niezawodnego z tych algorytmów (L / RMC) wynosi co najwyżej 12,5%. Zaletą L / RMC jest to, że jest oparty na kwantylach i może być interpretowany nawet wtedy, gdy podstawowy rozkład nie ma momentów. Kolejną zaletą jest to, że nie zakłada symetrii rozkładu nieskażonej części danych do pomiaru masy ogona: w rzeczywistości algorytm zwraca dwie liczby: RMC dla prawej masy ogona i LMC dla lewej masy ogona.
Odporność estymatora można zmierzyć na podstawie jego punktu awarii. Pojęcie punktu awarii jest jednak w tym kontekście skomplikowane. Intuicyjnie oznacza to, że przeciwnik musiałby kontrolować co najmniej 12,5% próby, aby ten estymator przyjmował dowolne wartości (należy to rozumieć jako dowolną wartość w zakresie wartości, które estymator może zwrócić, ponieważ miara ciężaru ogona jest zawsze wyrażone w przez konstrukcję: żadna ilość zanieczyszczeń nie może na przykład spowodować, że algorytm zwróci -1!). W praktyce okazuje się, że można zastąpić około 5% próbki nawet bardzo patologicznymi wartościami odstającymi, nie powodując, że najbardziej dotknięty szacunek (zawsze są dwa), odbiega zbytnio od wartości, jaką miał na niezanieczyszczonej próbce.
L / RMC jest również szeroko wdrażany. Na przykład można znaleźć implementację R tutaj . Jak wyjaśniono w artykule połączonym powyżej, aby obliczyć L / RMC, musisz obliczyć MC (estymator zaimplementowany w łączu) osobno dla lewej i prawej połowy danych. Tutaj (lewa) prawa połowa to podpróbki utworzone z obserwacji (mniejsze) większe niż mediana oryginalnej próbki.