Porównanie ogonów dwóch rozkładów próbek

13

Mam dwa zestawy danych, które są z grubsza wyśrodkowane wokół zera, ale podejrzewam, że mają różne ogony. Znam kilka testów, aby porównać rozkład z rozkładem normalnym, ale chciałbym porównać bezpośrednio te dwa rozkłady.

Czy istnieje prosty test umożliwiający porównanie grubości ogona z 2 rozkładów ?

Dzięki
fRed

RockScience
źródło
Czy tag „gruby ogon” naprawdę ma znaczenie (w przypadku przyszłych pytań)?
chl
@chl Powiedz mi, że z pewnością nie jestem tak doświadczony jak ty w statystyce. Ale IMO jest klasycznym nastawieniem, aby nie doceniać znaczenia ogonów. Czy czytałeś prace Mandelbrota? Grube ogony są bardzo ważne w statystyce stosowanej w finansach, a kryzys kredytowy w 2008 r. Wynikał po części z niektórych modeli cen, które zakładały normalność i nie doceniały grubych ogonów o pewnym rozkładzie korelacji. Możemy to omówić w innym wątku :)
RockScience
1
To pytanie jest potencjalnie interesujące, ale mile widziane byłoby pewne wyjaśnienie. Martwisz się jednym ogonem lub jednym i drugim? Jak mierzysz „otłuszczenie”? (Czy na przykład chcesz przesunąć i przeskalować te dwa rozkłady, aby dokonać porównania?) Jak mierzysz odchylenia w „otłuszczeniu”? Jeśli zastanawiasz się nad testem hipotez, to jaka dokładnie będzie hipoteza alternatywna?
whuber
@RockScience, mam dwie dystrybucje i chcę porównać tylko ogony, czy zdążyłeś to zrobić? Wiem, że możesz obliczyć kurtozę, ale jak sprawdziłeś, czy oba ogony są różne?
user2380782,

Odpowiedzi:

2

Konstruując próg, mówiąc lambda, możemy przetestować równość dwóch średnich lub wariancji dwóch rozkładów ograniczonych w regionie ogona (\ lambda, nieskończoność) w oparciu o dwa zestawy danych obserwacji mieszczących się w tym obszarze ogona. Oczywiście, dwa próbne testy t lub F mogą być OK, ale nie muszą być zawiłe, ponieważ zmienna losowa ograniczona do tego obszaru ogona nie jest normalna, nawet te oryginalne.

Lin-An Chen
źródło
Teoria wartości ekstremalnej bada takie skrócone rozkłady: asymptotycznie rozkład ogonów zwykle należy do uogólnionej rodziny Pareto . Można również spróbować dopasować dane do tej rodziny dystrybucji i porównać parametry.
Vincent Zoonekynd
@ Vincent Ogon może mieć praktycznie dowolny rozkład. Teoria ekstremalnych wartości niewiele mówi o ogonach: koncentruje się na rozkładzie maksimów (lub minimów) próbek iid, co jest zupełnie inną rzeczą.
whuber
1

Co powiesz na dopasowanie uogólnionego rozkładu lambda i przedziałów ufności ładowania dla 3. i 4. parametru?

Mike Lawrence
źródło
2
Dlaczego ta rodzina dystrybucji byłaby szczególnie dobra na ten problem, a nie jakakolwiek inna rodzina, taka jak dystrybucje Pearson?
whuber
1

Test Chi Square (test dobroci dopasowania) będzie bardzo dobry w porównywaniu ogonów dwóch rozkładów, ponieważ jego struktura polega na porównywaniu dwóch rozkładów za pomocą segmentów wartości (graficznie reprezentowanych przez histogram). I ogony będą składać się z jak największej ilości wiader.

Mimo że ten test koncentruje się na całym rozkładzie, nie tylko na ogonie, można łatwo zaobserwować, ile wartości Chi Square lub rozbieżności wynika z różnicy w tłuszczu ogonów.

Zwróć uwagę, że uzyskany histogram może faktycznie dać ci wizualnie znacznie więcej informacji dotyczących odpowiedniej grubości ogonów niż jakiekolwiek statystycznie istotne znaczenie związane z testem. Trzeba stwierdzić, że grubość ogonów jest statystycznie różna. To kolejna obserwacja wizualna. Mówią, że obraz jest wart tysiąca słów. Czasami jest również wart tysiąca liczb (ma to sens, biorąc pod uwagę, że wykresy zawierają wszystkie liczby).

Sympa
źródło
3
Wydaje mi się, że test Chi Square będzie szczególnie słaby w identyfikowaniu różnic w ogonach. Jeśli ogony są zakryte przez wiele pojemników, to - ponieważ są to ogony! - może być niewiele danych w dowolnym pojemniku, co unieważnia przybliżenie chi-kwadrat. Jeśli ogony są zakryte przez kilka pojemników, tracisz prawie całą moc rozróżniania ich kształtów, a to, co potrafisz odróżnić, może nie być strasznie istotne lub przydatne. (Jednym z problemów, przed którym stoimy tutaj, jest to, że „otyłość ogona” nie została zdefiniowana, więc pytanie jest naprawdę zbyt niejasne, aby odpowiedzieć dobrze.)
whuber
@ Whuber, nie mogę powiedzieć, czy zgadzam się z twoim komentarzem, ponieważ nie do końca rozumiem jedną z twoich uwag. Co dokładnie rozumiesz przez „unieważnienie przybliżenia chi-kwadrat”?
Sympa,
Test chi-kwadrat opiera się na przybliżeniu teorii normalnej do prawdziwego rozkładu statystyki chi-kwadrat. Zazwyczaj to przybliżenie słabnie, gdy populacje bin spadają poniżej 5.
whuber
@ whuber, dzięki za wyjaśnienie. W związku z tym wydaje mi się, że pierwsza fraza pierwszego komentarza może nie być tak dopracowana, jak to możliwe („test Chi Square będzie szczególnie słaby w wykrywaniu różnic w ogonach”). Być może bardziej odpowiednie stwierdzenie brzmiałoby: „to zależy ...” Ten test ma kilka zalet, w tym wymusza zdefiniowanie odpowiednich pojemników. I równie ważne jest ułatwienie budowy histogramu. Oczywiście, jeśli masz mniej niż 5 obserwacji w koszu, stracisz dokładność, jak dobrze to wyjaśniłeś.
Sympa,
@ Gaetan Doceniam dbałość o niuanse, ale w tym przypadku wyrok wydaje się uzasadniony. W porównaniu z wieloma innymi metodami porównywania rozkładów test Chi Squared nie wytrzymuje dobrze. Jeśli „zdefiniujesz odpowiednie pojemniki” na podstawie samych danych, test jest nieważny. Ponadto histogram zwykle nie jest przydatnym sposobem patrzenia na ogony dystrybucji. Jednak niechętnie proponuję alternatywy, ponieważ problem jest źle zdefiniowany: co może oznaczać, że dwie dystrybucje mają taką samą „grubość ogonów”? Kurtosis jest jedną z możliwości, ale jest to prymitywna miara.
whuber