Dlaczego wysoka dodatnia kurtoza jest problematyczna w testach hipotez?

14

Słyszałem (przepraszam, nie mogę podać linku do tekstu, coś mi powiedziano), że wysoka dodatnia kurtoza reszt może być problematyczna dla dokładnych testów hipotez i przedziałów ufności (a zatem problemów z wnioskowaniem statystycznym). Czy to prawda, a jeśli tak, to dlaczego? Czy wysoka dodatnia kurtoza reszt nie wskazywałaby, że większość reszt jest zbliżona do średniej resztkowej 0, a zatem są obecne mniej duże reszty? (Jeśli masz odpowiedź, spróbuj udzielić odpowiedzi z niezbyt głęboką matematyką, ponieważ nie jestem bardzo skłonny matematycznie).

DDK
źródło
4
Zgaduję, że skupiasz się na modelach z idealnymi warunkami normalnych (Gaussowskich) błędów. (W wielu innych kontekstach można się spodziewać wysokiej kurtozy reszt). Wysoka kurtoza najprawdopodobniej implikuje rozkład grubszy bardziej niż normalnie, więc niektóre bardzo wysokie (+ lub -) reszty. Nawet jeśli jest ich wiele w pobliżu zera, to tylko dobre wieści i możliwe złe wiadomości wymagają uwagi. Ale to z kolei może znaczyć dowolną liczbę rzeczy. Wykres rezydualny kontra dopasowany jest zwykle bardziej pouczający.
Nick Cox
Rzeczywiście koncentrowałem się na modelach z założeniami normalności.
DDK

Odpowiedzi:

15

słyszałem [...], że wysoka dodatnia kurtoza reszt może być problematyczna dla dokładnych testów hipotez i przedziałów ufności (a zatem problemów z wnioskowaniem statystycznym). Czy to prawda, a jeśli tak, to dlaczego?

W przypadku niektórych rodzajów testu hipotez jest to prawda.

Czy wysoka dodatnia kurtoza reszt nie wskazywałaby, że większość reszt jest zbliżona do średniej resztkowej 0, a zatem są obecne mniej duże reszty?

Nie.

Wygląda na to, że łączysz koncepcję wariancji z koncepcją kurtozy. Gdyby wariancja była mniejsza, wówczas pojawiałaby się tendencja do powstawania większej liczby małych reszt i mniejszej liczby dużych reszt. Wyobraź sobie, że utrzymujemy stałą odchylenia standardowego podczas zmiany kurtozy (więc zdecydowanie mówimy o zmianach w kurtozie zamiast wariancji).

Porównaj różne wariancje (ale tę samą kurtozę):

wprowadź opis zdjęcia tutaj

z inną kurtozą, ale z tą samą wariancją:

wprowadź opis zdjęcia tutaj

(zdjęcia z tego postu )

Wysoka kurtoza jest w wielu przypadkach związana z większą liczbą małych odchyleń od średniej - więcej małych reszt niż w normalnym rozkładzie .. ale aby utrzymać standardowe odchylenie na tej samej wartości, musimy również mieć więcej duże reszty (ponieważ posiadanie większej liczby małych reszty zmniejszyłoby typową odległość od średniej). Aby uzyskać więcej zarówno dużych, jak i małych, będziesz mieć mniej resztek „typowych rozmiarów” - tych o około jedno odchylenie standardowe od średniej.

zależy od tego, jak zdefiniujesz „małość”; nie możesz po prostu dodać wielu dużych reszt i utrzymywać stałą wariancji, potrzebujesz czegoś, aby to zrekompensować - ale dla pewnej określonej miary „małej” możesz znaleźć sposoby na zwiększenie kurtozy bez zwiększania tej konkretnej miary. (Na przykład wyższa kurtoza nie oznacza automatycznie wyższego szczytu jako takiego)

Wyższa kurtoza zwykle idzie w parze z większymi resztami, nawet gdy utrzymujesz stałą wariancji.

[Ponadto w niektórych przypadkach koncentracja małych reszt może w rzeczywistości prowadzić do większego problemu niż dodatkowy ułamek największych reszt - w zależności od tego, na co patrzysz.]

W każdym razie spójrzmy na przykład. Rozważ test t dla jednej próbki i wielkość próby 10.

Jeśli odrzucimy hipotezę zerową, gdy wartość bezwzględna statystyki t jest większa niż 2,222, wówczas gdy obserwacje są niezależne, identycznie rozłożone od rozkładu normalnego, a hipotetyczna średnia jest prawdziwą średnią populacji, odrzucimy zerową hipoteza 5% czasu.

Rozważmy szczególny rozkład z znacznie wyższą kurtozą niż normalnie: 75% naszej populacji ma swoje wartości z rozkładu normalnego, a pozostałe 25% ma swoje wartości z rozkładu normalnego z odchyleniem standardowym 50 razy większym.

Jeśli poprawnie obliczyłem, odpowiada to kurtozie 12 (nadmiar kurtozy 9). Wynikowy rozkład jest znacznie bardziej szczytowy niż normalny i ma ciężkie ogony. Gęstość jest porównywana z normalną gęstością poniżej - widać wyższy szczyt, ale tak naprawdę nie widać cięższego ogona na lewym zdjęciu, więc wykreśliłem również logarytm gęstości, który rozciąga dolną część obraz i kompresuje górę, dzięki czemu łatwiej zobaczyć zarówno szczyt, jak i ogony.

wprowadź opis zdjęcia tutaj

Rzeczywisty poziom istotności dla tego rozkładu, jeśli przeprowadza się „5%” jeden przykładowy test t o jest mniejsza niż 0,9%. Jest to dość dramatyczne i dość znacząco obniża krzywą mocy.n=10

(Zobaczysz także istotny wpływ na zasięg przedziałów ufności.)

Zauważ, że inny rozkład z tą samą kurtozą, co będzie miał inny wpływ na poziom istotności.


Dlaczego więc spada liczba odrzuceń? Jest tak, ponieważ cięższy ogon prowadzi do kilku dużych wartości odstających, co ma nieco większy wpływ na odchylenie standardowe niż na średnią; wpływa to na statystyki t, ponieważ prowadzi do większej wartości t między -1 a 1, w procesie zmniejszając proporcję wartości w obszarze krytycznym.

Jeśli weźmiesz próbkę, która wygląda całkiem spójnie z pochodzeniem z rozkładu normalnego, którego średnia jest wystarczająco daleko powyżej hipotetycznej średniej, że jest znacząca, a następnie weźmiesz obserwację najdalej ponad średnią i odciągniesz ją jeszcze dalej (to znaczy pomnóż średnią jeszcze większą niż pod ), faktycznie zmniejszysz statystykę t .H0

Pokażę ci. Oto próbka rozmiaru 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Wyobraź sobie, że chcemy go przetestować pod (test t dla jednej próbki). Okazuje się, że średnia próbki tutaj wynosi 2,68, a odchylenie standardowe próbki wynosi 0,9424. Otrzymujesz statystykę t wynoszącą 2,282 - tylko w regionie odrzucenia dla testu 5% (wartość p 0,0484).H0:μ=2

Teraz uczyń tę największą wartość 50:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Wyraźnie podnosimy średnią, więc powinna wskazywać na różnicę nawet bardziej niż wcześniej, prawda? Nie, nie ma. Statystyka t spada . Obecnie wynosi 1,106, a wartość p jest dość duża (blisko 30%). Co się stało? Cóż, podnieśliśmy średnią (do 7,277), ale standardowe odchylenie wzrosło powyżej 15.

Odchylenia standardowe są nieco bardziej wrażliwe na wartości odstające niż średnie - po wprowadzeniu wartości odstającej masz tendencję do popychania statystyki t dla jednej próby w kierunku 1 lub -1.

Jeśli istnieje szansa na kilka wartości odstających, to samo dzieje się tylko wtedy, gdy czasami mogą znajdować się po przeciwnych stronach (w takim przypadku odchylenie standardowe jest jeszcze bardziej zawyżone, podczas gdy wpływ na średnią jest zmniejszony w porównaniu do jednej wartości odstającej), więc statystyka t ma tendencję do zbliżania się do 0.

Podobne rzeczy dzieją się z wieloma innymi powszechnymi testami, które zakładają normalność - wyższa kurtoza zwykle wiąże się z cięższymi ogonami, co oznacza więcej wartości odstających, co oznacza, że ​​standardowe odchylenia są zawyżone w stosunku do średnich, a więc różnice, które chcesz wykryć, mają tendencję zostać „zalanym” przez wpływ wartości odstających na test. To znaczy niska moc.

Glen_b - Przywróć Monikę
źródło
1
Wow, wielkie dzięki za bardzo jasną i dopracowaną odpowiedź. Twój czas jest mile widziany!
DDK
Warto również zauważyć, że podczas gdy rozkład dużej próby na średnią próbki nie zależy od kurtozy (stąd rzeczywisty poziom istotności testów zakładających normalność dla średnich jest zbieżny z poziomem nominalnym, zwykle 0,05, ponieważ n-> nieskończoność, dla wszystkich skończonych kurtoz), to samo nie dotyczy praw do testów wariancji. Rozkład szacowanej wariancji dla dużej próby zależy od kurtozy, więc rzeczywisty poziom istotności klasycznych, przyjmujących normalność testów dla wariancji nie zbiega się do poziomu nominalnego jako n -> nieskończoności, gdy kurtoza jest różna od zera.
Peter Westfall,
Również wyższa kurtoza nie oznacza matematycznie, że „jest więcej małych odchyleń od średniej”. Jedyne, co mówi, to na pewno, że w ogonie jest więcej.
Peter Westfall,
Nie można uzyskać większych odchyleń i utrzymywać stałej wariancji, chyba że zrobisz więcej małych odchyleń; jeśli nie utrzymasz stałej wariancji, więcej twoich odchyleń stanie się niewielkich w stosunku do nowej skali. Tak więc, jeśli chodzi o patrzenie na kurtozę, matematyka mówi ci, że więcej dużych niesie ze sobą mniejszych.
Glen_b
@Peter rzućmy jako standaryzowanego . Kurtosis to , a jest monotoniczny w . Jeśli przesunę prawdopodobieństwo bardziej do końca , pewne prawdopodobieństwo musi przesunąć się w stronę średniej (lub nie mogę utrzymać ). Podobnie, jeśli przesunę prawdopodobieństwo bardziej do końca i pozwolę zwiększyć wariancję, będzie szerszy, a więc dla co najmniej niektórych wartości więcej reszty rozkładu będzie się mieściło w tych granicach ; po standaryzacji nowego ( doX κ = E ( Z 4 ) ZXκ=E(Z4)κZVar(Z)=1Xμ±kσkXXZκ1=E(Z2)κZVar(Z)=1Xμ±kσkXXZpowiedzmy), masz więcej mniejszych wartości w tym bezpośrednim znaczeniu.
Glen_b
4

Kurtosis mierzy wartości odstające. Wartości odstające są problematyczne dla standardowych wniosków (np. Testów t, przedziałów t), które są oparte na rozkładzie normalnym. To koniec historii! To naprawdę bardzo prosta historia.

Powodem, dla którego ta historia nie jest doceniana, jest fakt, że wciąż istnieje starożytny mit, że kurtoza mierzy „szczytowość”.

Oto proste wyjaśnienie pokazujące, dlaczego kurtoza mierzy wartości odstające, a nie „szczytowość”.

Rozważ następujący zestaw danych.

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

Kurtosis jest oczekiwaną wartością (wartości z) ^ 4. Oto (wartości z) ^ 4:

6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45

Średnia wynosi 2,78 i jest to szacunek kurtozy. (Odejmij 3, jeśli chcesz nadmiar kurtozy.)

Teraz zamień ostatnią wartość danych na 999, aby stała się wartością odstającą:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Oto (wartości z) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Średnia to 18,05, i to jest szacunek kurtozy. (Odejmij 3, jeśli chcesz nadmiar kurtozy.)

Oczywiście liczą się tylko wartości odstające. Nie ma nic o „szczycie” ani danych w pobliżu środka.

Jeśli wykonasz standardowe analizy statystyczne z drugim zestawem danych, powinieneś spodziewać się kłopotów. Duża kurtoza ostrzega o problemie.

Oto artykuł, który rozwija:

Westfall, PH (2014). Kurtosis as Peakedness, 1905 - 2014. RIP The American Statistician, 68, 191–195.

Peter Westfall
źródło
Dlaczego nie skorzystać z testów nieparametrycznych? W przypadku tego rodzaju problemów mogą one być lepsze.
Carl
1
Zgadzam się, że jest to możliwa droga, JEŚLI lubisz testować, która szybko staje się mniej interesująca w swojej klasycznej formie. Ale to nie jest tak naprawdę moja troska. Generalnie bardziej interesuje mnie modelowanie probabilistyczne. Jedna aplikacja: być może naprawdę interesuje Cię średnia, np. W przypadkach, gdy zmienną zależną są zarobione dolary, średnia procesu jest bardziej interesująca niż mediana procesu. Co zatem oznaczają dane na temat procesu, gdy dane są podatne na czynniki odstające? To trudny problem, ale ważny, a moment kurtozy jest istotny dla odpowiedzi. Nie testy nonpar.
Peter Westfall
W przypadku rozkładu Cauchy'ego przycięta średnia może być lepszą miarą lokalizacji niż mediana, a zwykła średnia nie byłaby miarą lokalizacji. To, co zastosować jako miarę lokalizacji, zależy od tego, co to jest dystrybucja. Przykładem, dla którego kurtoza nie byłaby pomocna jako wskaźnik, jest równomierny rozkład, dla którego średnia wartość ekstremalna jest lepszą miarą lokalizacji niż zarówno mediana, jak i średnia.
Carl
Nie o to chodzi. Jeśli interesują Cię sumy, np. Dolary, zwykła średnia to miara lokalizacji, którą chcesz.
Peter Westfall
Jeśli masz zmienną rozproszoną Cauchy'ego, możesz uzasadnić sumę zarobionych dolarów, ale średnia nie będzie szczególnie użyteczną miarą lokalizacji, co oznacza, że ​​„oczekiwana wartość” nie ma z nią uzasadnionych oczekiwań.
Carl
-3

Kurtoza wskazuje również na asymetryczne ogony. W dwustronnym teście hipotezy jeden ogon będzie długim ogonem, a drugi krótkim ogonem. Jeden z ogonów może być> alfa, ale <beta. Jeden ogon przekroczyłby wartość p, ale drugi nie.

Zasadniczo wnioskowanie statystyczne zakłada standardową normę. Jeśli nie jest to normalna norma, możesz sobie pozwolić na wnioskowanie oparte na bardziej zaawansowanej mechanice wnioskowania. Możesz być w stanie nas wnioskować Poissona, ale przy rozkładzie, który nie jest normalny, nie możesz używać wnioskowania opartego na normalnych.

Skośność i kurtoza są miarą nienormalności. Uczymy się przyjmować środki i używać normalnych rozkładów, zanim będziemy wiedzieć, że musimy przetestować normalność. Normalna wymaga 36 lub więcej punktów danych z każdego wymiaru. Możesz oszacować na 20 punktów danych, ale nadal będziesz mieć przekrzywienie i kurtozę. Gdy rozkład zbliża się do normalności, pochylenie i rozkład znikają.

Jedno z wyjaśnień zdefiniowało kurtozę jako szczytowość. Inny nie. W tej chwili jest to nierozstrzygnięta walka. Kurtosis to czwarty moment, obszar. Jestem na szczycie tego problemu.

Innym pomysłem, który istnieje, jest to, że z pochyleniem mediana przechyla się do trybu tworzącego trójkąt. Cieszyć się.

David W. Locke
źródło
1
Nie jest jasne, czy to dodaje coś przydatnego i innego niż i tak doskonałe odpowiedzi. Dodaje kilka zagadkowych stwierdzeń, np. „Normalny wymaga 36 lub więcej punktów danych” (więc 35 nie jest OK? Co stanowi podstawę tego twierdzenia? ”Skośność jako szczytowość„ Nie sądzę, aby ktokolwiek twierdził, że to ”. Wnioskowanie statystyczne zakłada standardowy normalny ": nie w ogóle. Kurtoza jest czwartym momentem, obszarem: nie; kurtoza, jak tu zdefiniowano, jest bezwymiarowym stosunkiem, opartym na czwartej i drugiej chwili o średniej.
Nick Cox
Czwarty moment jest całką, więc jest obszarem. Jak ten obszar przekłada się na szczytowość lub krzywiznę, tracę na sobie.
David W. Locke,
Typowym wyjaśnieniem kurtozy jest szczytowość, ale moim zdaniem jest to błędne. Zredaguję moją pierwotną odpowiedź na zmianę skośności, ponieważ szczytowość mówi, że kurtoza to ... Dzięki.
David W. Locke,
Ogony nie są symetryczne. Nigdy nie widziałem nic na temat wnioskowania statystycznego, które uwzględnia asymetryczne ogony. Ryzyko Kurtozy występuje, ponieważ ogony będą się przesuwać, gdy zbieranych będzie więcej punktów danych. Skośność i kurtoza polega na tym, że nie ma wystarczającej ilości danych, aby osiągnąć normalną normę.
David W. Locke,
1
Nie tak: istnieje masa teorii i zastosowań wykładniczych, gamma, Weibulla i wielu innych rozkładów, które nie są normalne.
Nick Cox