Mam histogram, gęstość jądra i dopasowany normalny rozkład zwrotów z dziennika finansowego, które są przekształcane w straty (znaki są zmieniane), i normalny wykres QQ tych danych:
Wykres QQ pokazuje wyraźnie, że ogony nie są prawidłowo dopasowane. Ale jeśli spojrzę na histogram i dopasowany rozkład normalny (niebieski), nawet wartości około 0,0 nie są poprawnie dopasowane. Wykres QQ pokazuje, że tylko ogony nie są odpowiednio dopasowane, ale wyraźnie cały rozkład nie jest prawidłowo dopasowany. Dlaczego nie pojawia się to na wykresie QQ?
data-visualization
normality-assumption
histogram
qq-plot
Stat Tistician
źródło
źródło
Odpowiedzi:
+1 do @NickSabbe, ponieważ „fabuła mówi tylko, że„ coś jest nie tak ”, co jest często najlepszym sposobem na użycie qq-plot (ponieważ może być trudno zrozumieć, jak je interpretować). Można jednak nauczyć się interpretować wykres qq, myśląc o tym, jak go utworzyć.
Najpierw posortuj dane, a następnie policz w górę od wartości minimalnej, biorąc każdy za równy procent. Na przykład, jeśli miałeś 20 punktów danych, licząc pierwszy (minimum), powiedziałbyś sobie: „Policzyłem 5% moich danych”. Postępowałeś zgodnie z tą procedurą, aż dotrzesz do końca, w którym to momencie przeszedłbyś przez 100% swoich danych. Te wartości procentowe można następnie porównać z tymi samymi wartościami procentowymi z odpowiadającej teoretycznej normy (tj. Normy z tą samą średnią i SD).
Kiedy zaczniesz je kreślić, odkryjesz, że masz problemy z ostatnią wartością, która wynosi 100%, ponieważ kiedy przekroczysz 100% teoretycznej normalnej, jesteś w nieskończoności. Problem ten rozwiązano przez dodanie małej stałej do mianownika w każdym punkcie danych przed obliczeniem procentów. Typową wartością byłoby dodanie 1 do mianownika; na przykład nazwałbyś swój pierwszy (z 20) punktów danych 1 / (20 + 1) = 5%, a twój ostatni to 20 / (20 + 1) = 95%. Teraz, jeśli narysujesz te punkty względem odpowiadającej im teoretycznej normy, otrzymasz wykres pp(do wykreślania prawdopodobieństw względem prawdopodobieństw). Taki wykres najprawdopodobniej pokazuje odchylenia między rozkładem a normalną w środku rozkładu. Wynika to z tego, że 68% normalnego rozkładu mieści się w zakresie +/- 1 SD, więc wykresy pp mają tam doskonałą rozdzielczość, a gdzie indziej słabą rozdzielczość. (Aby uzyskać więcej informacji na ten temat, pomocne może być przeczytanie mojej odpowiedzi tutaj: wykresy PP vs. wykresy QQ .)
Często najbardziej martwimy się tym, co dzieje się w ogonach naszej dystrybucji. Aby uzyskać lepszą rozdzielczość tam (a więc gorszą rozdzielczość w środku), możemy skonstruować qq-plot zamiast. Robimy to, biorąc nasze zestawy prawdopodobieństw i przepuszczając je przez odwrotność CDF rozkładu normalnego (to tak, jakbyśmy czytali tabelę Z na odwrocie książki statystyk - ty czytasz z prawdopodobieństwem i odczytujesz Z- wynik). Wynikiem tej operacji są dwa zestawy kwantyli , które można wykreślić względem siebie w podobny sposób.
@ whuber ma rację, że linia odniesienia jest następnie rysowana (zwykle) przez znalezienie najlepiej pasującej linii przez środkowe 50% punktów (tj. od pierwszego kwartylu do trzeciego). Ma to na celu ułatwienie czytania fabuły. Za pomocą tej linii możesz zinterpretować wykres jako pokazujący, czy kwantyle twojego rozkładu stopniowo odbiegają od prawdziwej normalnej, gdy poruszasz się w ogonach. (Zauważ, że położenie punktów dalej od centrum nie jest tak naprawdę niezależne od tych znajdujących się bliżej; więc fakt, że na twoim specyficznym histogramie ogony wydają się łączyć ze sobą po różnicach „ramion”, nie oznacza, że kwantyle są teraz takie same.)
źródło
Mówiąc prosto: wykres QQ pokazuje ranking w rozkładzie empirycznym w porównaniu do rozkładu oczekiwanego. W twoim przypadku (i tak naprawdę jest to dość często; zawsze z rozkładami symetrycznymi), szeregi w pobliżu środka będą podobne między oczekiwanymi a empirycznymi, dlatego wykres QQ jest blisko linii tam.
Rzeczywiście nie jest tak łatwo zidentyfikować „dziwne” obserwacje na podstawie ich pozycji na wykresie QQ: wykres po prostu mówi ci, że „coś jest nie tak”, a jeśli wiesz więcej na temat danych / dystrybucji, możesz się dowiedzieć gdzie są problemy.
źródło
R
jego dopasowanie opiera się na niektórych umiarkowanych percentylach, takich jak kwartyle, podczas gdy ewidentnie dopasowanie do histogramu opierało się na pasujących momentach.)