Wygenerowałem wykres qq przy użyciu następującego kodu. Wiem, że wykres qq służy do sprawdzenia, czy dane są dystrybuowane normalnie, czy nie. Moje pytanie brzmi: co oznaczenia osi xiy wskazują na wykresie qq i co oznacza ta wartość kwadratowa r wskazująca?
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Wiem, że już trwa dyskusja na temat fabuły qq , ale nie mogłem zrozumieć koncepcji pomimo przejścia przez tę dyskusję.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
źródło
źródło
help(probplot)
stwierdza:probplot
generuje wykres prawdopodobieństwa, którego nie należy mylić z wykresem QQ lub PP.Odpowiedzi:
Odpowiedź Maconda jest dokładna, jednak z oryginalnego postu pomyślałem, że może być pomocne uproszczenie nieco verbage.
Wykres QQ oznacza „wykres kwantylowo-kwantylowy” .
Jest to wykres, w którym osie są celowo przekształcane , aby normalny (lub gaussowski) rozkład pojawił się w linii prostej . Innymi słowy, idealnie normalny rozkład będzie dokładnie zgodny z linią o nachyleniu = 1 i przecięciu = 0.
Dlatego jeśli wykres nie wydaje się - w przybliżeniu - linią prostą, wówczas rozkład leżący u jego podstaw nie jest normalny. Jeśli się zgina, oznacza to, że na przykład jest więcej wartości „dużych ulotek” niż oczekiwano. (Link zawiera więcej przykładów).
W kwantyle teoretyczne są umieszczone wzdłuż osi x. Oznacza to, że oś x nie jest twoimi danymi , jest po prostu oczekiwaniem, gdzie powinny być twoje dane, gdyby były normalne.
Rzeczywiste dane wykreślono wzdłuż osi y.
Wartości są standardowymi odchyleniami od średniej. Tak,
0
to średnia z danych,1
to 1 odchylenie standardowe powyżej, itd. Oznacza to na przykład, że68.27%
wszystkie Twoje dane powinny być między -1 i 1, jeśli mają rozkład normalny.Wreszcie istnieje podobny wykres, który jest rzadko używany, nazywany wykresem pp . Ten wykres jest bardziej przydatny, jeśli chcesz skupić się na tym, gdzie leży większość danych, zamiast na skrajnościach.
źródło
Oś Y pokazuje wartości obserwowanego rozkładu i oś X, wartości rozkładu teoretycznego.
Każdy punkt jest kwantylem. Powiedzmy, że jeśli na wykresie znajduje się 100 punktów, pierwszy punkt (ten w lewym dolnym rogu) wskazuje górną granicę przedziału, a gdy jest uporządkowany od najmniejszej do największej, najmniejszy 1 procent punktów danych odpowiedni rozkład pozostaje w tym przedziale. Podobnie, drugi punkt jest górną granicą przedziału, w którym znajdują się najmniejsze 2 procent punktów danych z rozkładu. To jest koncepcja kwantyla. Ale nie ogranicza się to do przypadku ze 100 przedziałami, jest to ogólna koncepcja i możesz mieć tak wiele przedziałów, jak to możliwe, wtedy będziesz miał tyle kwantyli opisujących granice przedziałów.
W odpowiedzi użyłem punktów danych, takich jak uporządkowane punkty danych itp. Odnosi się to do dyskretnych rozkładów, ale pojęcie można uogólnić dla rozkładów ciągłych.
źródło