Wykresy PP vs. wykresy QQ

39

Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do danych?

Kay
źródło
4
Wydaje się, że wikipedia może ci w tym pomóc: wykres prawdopodobieństwa . Działka QQ , PP działka . Jeśli masz bardziej szczegółowe pytanie, wyjaśnij je!
vector07
Dziękuję, myślę, że mylę wykres PP i wykres prawdopodobieństwa!
kay

Odpowiedzi:

41

Jak zauważa @ vector07 , wykres prawdopodobieństwa jest bardziej abstrakcyjną kategorią, której członkami są wykresy pp i wykresy qq. Omówię zatem różnicę między tymi dwoma ostatnimi. Najlepszym sposobem na zrozumienie różnic jest zastanowienie się nad ich budową i zrozumienie, że musisz rozpoznać różnicę między kwantylami rozkładu a proporcją rozkładu, przez którą przeszedłeś po osiągnięciu danego kwantyla. Zależność między nimi można zobaczyć, wykreślając funkcję dystrybucji skumulowanej (CDF) rozkładu. Weźmy na przykład standardowy rozkład normalny:

wprowadź opis zdjęcia tutaj

Widzimy, że około 68% osi y (region między czerwonymi liniami) odpowiada 1/3 osi x (region między niebieskimi liniami). Oznacza to, że gdy wykorzystamy proporcję rozkładu, przez który przeszliśmy, do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu pp), uzyskamy dużo rozdzielczości w środku rozkładów, ale mniej przy ogony. Z drugiej strony, gdy użyjemy kwantyli do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu qq), otrzymamy bardzo dobrą rozdzielczość na ogonach, ale mniej w środku. (Ponieważ analitycy danych są zwykle bardziej zaniepokojeni ogonami rozkładu, co będzie miało większy wpływ na wnioskowanie, na przykład, wykresy qq są znacznie bardziej powszechne niż wykresy pp).

Aby zobaczyć te fakty w działaniu, omówię budowę pp-plot i qq-plot. (W tym miejscu przechodzę też przez konstrukcję wykresu qq werbalnie / wolniej: wykres QQ nie pasuje do histogramu .) Nie wiem, czy używasz R, ale mam nadzieję, że będzie to zrozumiałe:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

wprowadź opis zdjęcia tutaj

Niestety, wykresy te nie są bardzo charakterystyczne, ponieważ jest niewiele danych, a my porównujemy prawdziwą normalną z prawidłowym rozkładem teoretycznym, więc nie ma nic specjalnego do zobaczenia ani w środku, ani w ogonach rozkładu. Aby lepiej zademonstrować te różnice, wykreślam rozkład t (ogoniasty) z 4 stopniami swobody, a poniżej rozkład dwumodalny. Ogony tłuszczu są znacznie bardziej charakterystyczne na wykresie qq, podczas gdy bimodalność jest bardziej charakterystyczna na wykresie pp.

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

gung - Przywróć Monikę
źródło
14
@AleksandrH Naprawdę doceniamy twoją troskę o studentów. Twoje domniemane założenie, że ta strona jest przeznaczona tylko dla studentów, którzy nie znają się na statystyce, jest błędne; a twoje insynuacje, że „nieudolne odpowiedzi” są nieodpowiednie dla studentów, po prostu nie są zgodne z rzeczywistością, o czym świadczy wiele „trudnych” odpowiedzi na tej stronie. Bardziej konstruktywnym sposobem wyrażenia skargi jest przykład: pokaż nam, jak poprawić nasze odpowiedzi, i zainspiruj nas do naśladowania cię, zamieszczając tutaj odpowiedź, która spełnia twoje standardy w zakresie zaspokajania potrzeb nowych studentów.
whuber
12

Oto definicja z v8doc.sas.com :

Wykres PP porównuje empiryczną funkcję rozkładu skumulowanego zbioru danych z określoną teoretyczną funkcją rozkładu skumulowanego F (·). Wykres QQ porównuje kwantyle rozkładu danych z kwantylami znormalizowanego rozkładu teoretycznego z określonej rodziny rozkładów.

W tekście wspominają również:

  • różnice dotyczące sposobu konstruowania i interpretowania wykresów PP i QQ.
  • zalety korzystania z jednego lub drugiego, w odniesieniu do porównywania rozkładów empirycznych i teoretycznych.

Odniesienie :

SAS Institute Inc., SAS OnlineDoc®, wersja 8, Cary, NC: SAS Institute Inc., 1999

Andre Silva
źródło