Wykres QQ w Pythonie

11

Wygenerowałem wykres qq przy użyciu następującego kodu. Wiem, że wykres qq służy do sprawdzenia, czy dane są dystrybuowane normalnie, czy nie. Moje pytanie brzmi: co oznaczenia osi xiy wskazują na wykresie qq i co oznacza ta wartość kwadratowa r wskazująca?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

wprowadź opis zdjęcia tutaj

Wiem, że już trwa dyskusja na temat fabuły qq , ale nie mogłem zrozumieć koncepcji pomimo przejścia przez tę dyskusję.

Elizabeth Susan Joseph
źródło
4
Jest to bardzo bliskie byciu duplikatem połączonego wątku - Python vs R nie jest tutaj istotnym rozróżnieniem - ale aspekt jest nowy. Dobrym pomysłem na pytania i odpowiedzi może być bardziej skoncentrowanie się na tym aspekcie, aby uniknąć powielania. (Zastanawiam się, czy jest podatny na niezrozumienie, ponieważ nawet przy słabym dopasowaniu nachylenie w górę, które jest nieuniknione na wykresie QQ, oznacza, że ​​spodziewamy się, że nieco większy od zera. Zatem wartości, które mogą być dość imponujące w regresji analiza może nie być tak imponująca.)R 2 R 2R2R2R2
Silverfish,
@Silverfish Nie uważałbym za pomocny ani warty skupienia się na . Wykresy QQ są zwykle widoczne , a nie tylko zgłaszane z tabelą niezliczonych wartości . Tak długo, jak istnieje wizualizacja, po co zmniejszać ją do pojedynczej liczby? Jeśli wykres QQ wygląda „źle”, ale jakoś wygląda „dobrze”, czy nadal twierdziłbyś, że to normalne? Większość dobrych pakietów nawet nie podaje właśnie z tego powodu. Ta argumentacja przeciw momentowi ma nawet uroczą nazwę: kwartet Anscombe . R 2 R 2 R 2R2R2R2R2
Mike Williamson,
R2R2
Czy jesteś pewien, że kreślisz wykres QQ? help(probplot)stwierdza: probplotgeneruje wykres prawdopodobieństwa, którego nie należy mylić z wykresem QQ lub PP.
abukaj

Odpowiedzi:

10

Odpowiedź Maconda jest dokładna, jednak z oryginalnego postu pomyślałem, że może być pomocne uproszczenie nieco verbage.

Wykres QQ oznacza „wykres kwantylowo-kwantylowy” .

Jest to wykres, w którym osie są celowo przekształcane , aby normalny (lub gaussowski) rozkład pojawił się w linii prostej . Innymi słowy, idealnie normalny rozkład będzie dokładnie zgodny z linią o nachyleniu = 1 i przecięciu = 0.

Dlatego jeśli wykres nie wydaje się - w przybliżeniu - linią prostą, wówczas rozkład leżący u jego podstaw nie jest normalny. Jeśli się zgina, oznacza to, że na przykład jest więcej wartości „dużych ulotek” niż oczekiwano. (Link zawiera więcej przykładów).


  1. Co oznaczają etykiety X&Y?

W kwantyle teoretyczne są umieszczone wzdłuż osi x. Oznacza to, że oś x nie jest twoimi danymi , jest po prostu oczekiwaniem, gdzie powinny być twoje dane, gdyby były normalne.

Rzeczywiste dane wykreślono wzdłuż osi y.

Wartości są standardowymi odchyleniami od średniej. Tak, 0to średnia z danych, 1to 1 odchylenie standardowe powyżej, itd. Oznacza to na przykład, że 68.27%wszystkie Twoje dane powinny być między -1 i 1, jeśli mają rozkład normalny.

  1. R2

R2R2R2R2


Wreszcie istnieje podobny wykres, który jest rzadko używany, nazywany wykresem pp . Ten wykres jest bardziej przydatny, jeśli chcesz skupić się na tym, gdzie leży większość danych, zamiast na skrajnościach.

Mike Williamson
źródło
1
Słowo wypaczone nie jest tutaj najlepszym wyborem: powiedziałbym, że przekształcony .
Nick Cox,
Świetne wyjaśnienie. Czy możesz wyjaśnić, w jaki sposób generowana jest oś X (wartości oczekiwane)?
Vivek Ananthan
1

Oś Y pokazuje wartości obserwowanego rozkładu i oś X, wartości rozkładu teoretycznego.

Każdy punkt jest kwantylem. Powiedzmy, że jeśli na wykresie znajduje się 100 punktów, pierwszy punkt (ten w lewym dolnym rogu) wskazuje górną granicę przedziału, a gdy jest uporządkowany od najmniejszej do największej, najmniejszy 1 procent punktów danych odpowiedni rozkład pozostaje w tym przedziale. Podobnie, drugi punkt jest górną granicą przedziału, w którym znajdują się najmniejsze 2 procent punktów danych z rozkładu. To jest koncepcja kwantyla. Ale nie ogranicza się to do przypadku ze 100 przedziałami, jest to ogólna koncepcja i możesz mieć tak wiele przedziałów, jak to możliwe, wtedy będziesz miał tyle kwantyli opisujących granice przedziałów.

W odpowiedzi użyłem punktów danych, takich jak uporządkowane punkty danych itp. Odnosi się to do dyskretnych rozkładów, ale pojęcie można uogólnić dla rozkładów ciągłych.

R2R2

Macond
źródło
3
R2R2