Wykres QQ nie pasuje do histogramu

12

Mam histogram, gęstość jądra i dopasowany normalny rozkład zwrotów z dziennika finansowego, które są przekształcane w straty (znaki są zmieniane), i normalny wykres QQ tych danych:

http://tinypic.com/r/34ocwvr/6

Wykres QQ pokazuje wyraźnie, że ogony nie są prawidłowo dopasowane. Ale jeśli spojrzę na histogram i dopasowany rozkład normalny (niebieski), nawet wartości około 0,0 nie są poprawnie dopasowane. Wykres QQ pokazuje, że tylko ogony nie są odpowiednio dopasowane, ale wyraźnie cały rozkład nie jest prawidłowo dopasowany. Dlaczego nie pojawia się to na wykresie QQ?

Stat Tistician
źródło
10
Niebieska krzywa po lewej stronie odpowiada hipotetycznej linii „najlepszego dopasowania” po prawej stronie. Linia po prawej stronie nie jest najlepiej dopasowaną linią: jest to ta, która najlepiej pasuje do średnich wartości w rozkładzie. Gdyby dopasować „krzywą dzwonową” do środkowych dwóch trzecich histogramu, zamiast do całej rzeczy, krzywa ta zbliżyłaby się do podążania za szczytem i stromo nachylonymi bokami, ale wtedy byłaby daleko za nisko na ramionach i ogonach. Właśnie to pokazuje linia na wykresie qq: wykresy te są w doskonałej zgodności; to właśnie ataki , które różnią.
whuber

Odpowiedzi:

11

+1 do @NickSabbe, ponieważ „fabuła mówi tylko, że„ coś jest nie tak ”, co jest często najlepszym sposobem na użycie qq-plot (ponieważ może być trudno zrozumieć, jak je interpretować). Można jednak nauczyć się interpretować wykres qq, myśląc o tym, jak go utworzyć.

Najpierw posortuj dane, a następnie policz w górę od wartości minimalnej, biorąc każdy za równy procent. Na przykład, jeśli miałeś 20 punktów danych, licząc pierwszy (minimum), powiedziałbyś sobie: „Policzyłem 5% moich danych”. Postępowałeś zgodnie z tą procedurą, aż dotrzesz do końca, w którym to momencie przeszedłbyś przez 100% swoich danych. Te wartości procentowe można następnie porównać z tymi samymi wartościami procentowymi z odpowiadającej teoretycznej normy (tj. Normy z tą samą średnią i SD).

Kiedy zaczniesz je kreślić, odkryjesz, że masz problemy z ostatnią wartością, która wynosi 100%, ponieważ kiedy przekroczysz 100% teoretycznej normalnej, jesteś w nieskończoności. Problem ten rozwiązano przez dodanie małej stałej do mianownika w każdym punkcie danych przed obliczeniem procentów. Typową wartością byłoby dodanie 1 do mianownika; na przykład nazwałbyś swój pierwszy (z 20) punktów danych 1 / (20 + 1) = 5%, a twój ostatni to 20 / (20 + 1) = 95%. Teraz, jeśli narysujesz te punkty względem odpowiadającej im teoretycznej normy, otrzymasz wykres pp(do wykreślania prawdopodobieństw względem prawdopodobieństw). Taki wykres najprawdopodobniej pokazuje odchylenia między rozkładem a normalną w środku rozkładu. Wynika to z tego, że 68% normalnego rozkładu mieści się w zakresie +/- 1 SD, więc wykresy pp mają tam doskonałą rozdzielczość, a gdzie indziej słabą rozdzielczość. (Aby uzyskać więcej informacji na ten temat, pomocne może być przeczytanie mojej odpowiedzi tutaj: wykresy PP vs. wykresy QQ .)

Często najbardziej martwimy się tym, co dzieje się w ogonach naszej dystrybucji. Aby uzyskać lepszą rozdzielczość tam (a więc gorszą rozdzielczość w środku), możemy skonstruować qq-plot zamiast. Robimy to, biorąc nasze zestawy prawdopodobieństw i przepuszczając je przez odwrotność CDF rozkładu normalnego (to tak, jakbyśmy czytali tabelę Z na odwrocie książki statystyk - ty czytasz z prawdopodobieństwem i odczytujesz Z- wynik). Wynikiem tej operacji są dwa zestawy kwantyli , które można wykreślić względem siebie w podobny sposób.

@ whuber ma rację, że linia odniesienia jest następnie rysowana (zwykle) przez znalezienie najlepiej pasującej linii przez środkowe 50% punktów (tj. od pierwszego kwartylu do trzeciego). Ma to na celu ułatwienie czytania fabuły. Za pomocą tej linii możesz zinterpretować wykres jako pokazujący, czy kwantyle twojego rozkładu stopniowo odbiegają od prawdziwej normalnej, gdy poruszasz się w ogonach. (Zauważ, że położenie punktów dalej od centrum nie jest tak naprawdę niezależne od tych znajdujących się bliżej; więc fakt, że na twoim specyficznym histogramie ogony wydają się łączyć ze sobą po różnicach „ramion”, nie oznacza, że ​​kwantyle są teraz takie same.)

x3y.2dane w tym ogonie twojej dystrybucji niż w teoretycznej normie. Innymi słowy:

  • jeśli oba ogony skręcają się w kierunku przeciwnym do ruchu wskazówek zegara, masz ciężkie ogony ( leptokurtoza ),
  • jeśli oba ogony skręcają się zgodnie z ruchem wskazówek zegara, masz lekkie ogony (platykurtosis),
  • jeśli twój prawy ogon skręca się w kierunku przeciwnym do ruchu wskazówek zegara, a lewy ogon skręca się w kierunku zgodnym z ruchem wskazówek zegara, masz prawe pochylenie
  • jeśli twój lewy ogon skręca się w kierunku przeciwnym do ruchu wskazówek zegara, a prawy ogon skręca w kierunku zgodnym z ruchem wskazówek zegara, masz przekrzywienie w lewo
gung - Przywróć Monikę
źródło
Uważam, że takie rubryki są mniej niż zadowalające. Jednym z nich jest to, że nie mają bezpośredniego związku z zasadami stojącymi za fabułą: muszą być zapamiętane osobno (i mogą być całkowicie pomylone przez wadliwą pamięć). Inną (w tym przypadku) jest to, że jest zbyt skomplikowane, aby było niezawodnie przydatne. Jeszcze inna jest to, że brak standaryzacji w sposobie rysowania takich wykresów może sprawić, że ta metoda będzie niepoprawna, gdy zastosuje się ją do wykresu qq wykonanego inną procedurą. Ale wykresy qq są łatwe do interpretacji: patrz moja próba wyjaśnienia w połowie quantdec.com/envstats/notes/class_03/probability.htm .
whuber
5

Mówiąc prosto: wykres QQ pokazuje ranking w rozkładzie empirycznym w porównaniu do rozkładu oczekiwanego. W twoim przypadku (i tak naprawdę jest to dość często; zawsze z rozkładami symetrycznymi), szeregi w pobliżu środka będą podobne między oczekiwanymi a empirycznymi, dlatego wykres QQ jest blisko linii tam.

Rzeczywiście nie jest tak łatwo zidentyfikować „dziwne” obserwacje na podstawie ich pozycji na wykresie QQ: wykres po prostu mówi ci, że „coś jest nie tak”, a jeśli wiesz więcej na temat danych / dystrybucji, możesz się dowiedzieć gdzie są problemy.

Nick Sabbe
źródło
1
Chciałbym podtrzymać przeciwny wniosek, Nick: wykres qq znacznie ułatwia identyfikację i ocenę „dziwnych” wyników w porównaniu do zbioru danych, podczas gdy histogram ma tendencję do przesłonięcia dużo tego, co ujawnia wykres qq. Problem nie dotyczy tego, czy wykres qq jest zbliżony do linii: dotyczy linii, która została wybrana przez oprogramowanie jako odniesienie do wykresu! (Podejrzewam, że Rjego dopasowanie opiera się na niektórych umiarkowanych percentylach, takich jak kwartyle, podczas gdy ewidentnie dopasowanie do histogramu opierało się na pasujących momentach.)
whuber
1
@ whuber: Osobiście lubię widzieć oba, jeśli to możliwe (głównie dlatego, że „czytam” histogramy łatwiej niż wykresy QQ). Ale masz rację, a ja poprawiony.
Nick Sabbe
I masz całkowitą rację, że te dwie techniki się uzupełniają. Na przykład bimodalność jest łatwiejsza do wykrycia (i określenia ilościowego) na histogramie niż na wykresie qq. Uważam, że wraz z praktyką zarówno histogramy, jak i wykresy qq stają się łatwe do odczytania. Wykresy QQ mogą się nieco dłużej uczyć tylko dlatego, że nie mają standardowej formy prezentacji: zawsze musisz sprawdzić, która oś jest wartością, a który kwantylem, a czasami kwantyle są konwertowane na „wartości równoważne” (zamiast standaryzowany).
whuber