Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do danych?
39
Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do danych?
Odpowiedzi:
Jak zauważa @ vector07 , wykres prawdopodobieństwa jest bardziej abstrakcyjną kategorią, której członkami są wykresy pp i wykresy qq. Omówię zatem różnicę między tymi dwoma ostatnimi. Najlepszym sposobem na zrozumienie różnic jest zastanowienie się nad ich budową i zrozumienie, że musisz rozpoznać różnicę między kwantylami rozkładu a proporcją rozkładu, przez którą przeszedłeś po osiągnięciu danego kwantyla. Zależność między nimi można zobaczyć, wykreślając funkcję dystrybucji skumulowanej (CDF) rozkładu. Weźmy na przykład standardowy rozkład normalny:
Widzimy, że około 68% osi y (region między czerwonymi liniami) odpowiada 1/3 osi x (region między niebieskimi liniami). Oznacza to, że gdy wykorzystamy proporcję rozkładu, przez który przeszliśmy, do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu pp), uzyskamy dużo rozdzielczości w środku rozkładów, ale mniej przy ogony. Z drugiej strony, gdy użyjemy kwantyli do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu qq), otrzymamy bardzo dobrą rozdzielczość na ogonach, ale mniej w środku. (Ponieważ analitycy danych są zwykle bardziej zaniepokojeni ogonami rozkładu, co będzie miało większy wpływ na wnioskowanie, na przykład, wykresy qq są znacznie bardziej powszechne niż wykresy pp).
Aby zobaczyć te fakty w działaniu, omówię budowę pp-plot i qq-plot. (W tym miejscu przechodzę też przez konstrukcję wykresu qq werbalnie / wolniej: wykres QQ nie pasuje do histogramu .) Nie wiem, czy używasz R, ale mam nadzieję, że będzie to zrozumiałe:
Niestety, wykresy te nie są bardzo charakterystyczne, ponieważ jest niewiele danych, a my porównujemy prawdziwą normalną z prawidłowym rozkładem teoretycznym, więc nie ma nic specjalnego do zobaczenia ani w środku, ani w ogonach rozkładu. Aby lepiej zademonstrować te różnice, wykreślam rozkład t (ogoniasty) z 4 stopniami swobody, a poniżej rozkład dwumodalny. Ogony tłuszczu są znacznie bardziej charakterystyczne na wykresie qq, podczas gdy bimodalność jest bardziej charakterystyczna na wykresie pp.
źródło
Oto definicja z v8doc.sas.com :
W tekście wspominają również:
Odniesienie :
SAS Institute Inc., SAS OnlineDoc®, wersja 8, Cary, NC: SAS Institute Inc., 1999
źródło