Przeczytałem tutaj wystarczająco dużo wątków na temat QQplots, aby zrozumieć, że QQplot może być bardziej pouczający niż inne testy normalności. Jednak nie mam doświadczenia w interpretacji QQplots. Dużo googlowałem; Znalazłem wiele wykresów nietypowych wykresów QQ, ale nie ma jasnych zasad ich interpretacji, poza tym, co wydaje się być porównaniem ze znanymi rozkładami plus „przeczucie”.
Chciałbym wiedzieć, czy masz (lub znasz) jakąś praktyczną zasadę, która pomoże ci zdecydować o nienormalności.
To pytanie pojawiło się, gdy zobaczyłem te dwa wykresy:
Rozumiem, że decyzja o nienormalności zależy od danych i tego, co chcę z nimi zrobić; jednak moje pytanie brzmi: ogólnie, kiedy zaobserwowane odstępstwa od linii prostej stanowią wystarczający dowód, aby nierozsądne było zbliżenie normalności?
Co jest warte, test Shapiro-Wilka nie odrzucił hipotezy o nienormalności w obu przypadkach.
źródło
Odpowiedzi:
Zauważ, że Shapiro-Wilk to potężny test normalności.
Najlepszym podejściem jest naprawdę dobre wyobrażenie o tym, jak wrażliwa jest jakakolwiek procedura, której chcesz użyć, na różnego rodzaju nienormalności (jak bardzo nietypowa musi być w ten sposób, aby wpływała na twoje wnioskowanie bardziej niż ty Mogę zaakceptować).
Nieformalnym podejściem do patrzenia na wykresy byłoby wygenerowanie szeregu zestawów danych, które w rzeczywistości są normalne, o tej samej wielkości próbki, co masz - (na przykład powiedzmy 24 z nich). Wykreśl swoje rzeczywiste dane w siatce takich wykresów (5x5 w przypadku 24 losowych zestawów). Jeśli nie jest to szczególnie nietypowy wygląd (powiedzmy najgorzej wyglądający), jest dość zgodny z normalnością.
Moim zdaniem zestaw danych „Z” w środku wygląda mniej więcej na równi z „o” i „v”, a może nawet „h”, podczas gdy „d” i „f” wyglądają nieco gorzej. „Z” to prawdziwe dane. Chociaż przez chwilę nie wierzę, że jest to normalne, nie jest to szczególnie niezwykłe, gdy porównasz to z normalnymi danymi.
[Edycja: Właśnie przeprowadziłem losową ankietę - cóż, zapytałem córkę, ale w dość losowym czasie - a jej wybór na najmniej jak linię prostą był „d”. 100% ankietowanych uważało, że „d” jest najbardziej dziwne.]
Bardziej formalnym podejściem byłoby wykonanie testu Shapiro-Francii (który jest efektywnie oparty na korelacji w wykresie QQ), ale (a) nie jest nawet tak potężny jak test Shapiro Wilka i (b) testy formalne odpowiadają pytanie (czasem), na które powinieneś już znać odpowiedź (rozkład, z którego pochodzą Twoje dane, nie jest dokładnie normalne), zamiast pytania, na które musisz odpowiedzieć (jak bardzo to ma znaczenie?).
Zgodnie z życzeniem, kod powyższego wyświetlacza. Nie ma w tym nic wymyślnego:
Zauważ, że było to wyłącznie w celach ilustracyjnych; Chciałem mieć mały zestaw danych, który wyglądałby nieco nienormalnie, dlatego wykorzystałem resztki z regresji liniowej na danych samochodów (model nie jest całkiem odpowiedni). Jednakże, jeśli faktycznie generowałem taki wyświetlacz dla zestawu reszt dla regresji, zrestartowałbym wszystkie 25 zestawów danych na tych samych jak w modelu i wyświetliłem wykresy QQ ich reszt, ponieważ reszty mają pewne struktura nie występuje w normalnych liczbach losowych.x
(Robię takie zestawy wykresów przynajmniej od połowy lat 80. Jak możesz interpretować wykresy, jeśli nie wiesz, jak się zachowują, gdy założenia się utrzymują - a kiedy nie?)
Zobacz więcej:
źródło
opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))
potem w pętlii
zrobiłemqqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")
to na końcu,par(opar)
aby przywrócić opcje do tego, czym były wcześniej. To pomija niektóre szczegóły, ale powinieneś być w stanie zarządzać stamtąd.Nie zaprzeczając żadnej z doskonałych odpowiedzi tutaj, mam jedną ogólną zasadę, która często (choć nie zawsze) jest decydująca. (Wydaje się, że trafny komentarz w odpowiedzi @Dante też jest odpowiedni).
Czasami wydaje się to zbyt oczywiste, ale proszę bardzo.
Z przyjemnością nazywam dystrybucję niestandardową, jeśli uważam, że mogę zaoferować inny opis, który jest zdecydowanie bardziej odpowiedni.
Tak więc, jeśli istnieje niewielka krzywizna i / lub nieregularność w ogonach normalnego wykresu kwantylowo-kwantylowego, ale przybliżona prostoliniowość na wykresie kwantowo-kwantowym gamma, mogę powiedzieć: „To nie jest dobrze scharakteryzowane jako normalne; bardziej przypomina gamma „.
To nie przypadek, że odzwierciedla to standardowy argument w historii i filozofii nauki, nie wspominając o ogólnej praktyce naukowej, że hipoteza jest najbardziej wyraźnie i skutecznie obalona, jeśli masz lepszą. (Wskazówka: aluzje do Karla Poppera, Thomasa S. Kuhna itd.)
Prawdą jest, że dla początkujących, a nawet dla wszystkich, istnieje płynna gradacja między „To normalne, z wyjątkiem drobnych nieprawidłowości, których zawsze oczekujemy”, a „To bardzo różni się od normalnych, z wyjątkiem pewnego szorstkiego podobieństwa, które często uzyskujemy „.
Koperty ufności (podobne) i wiele symulowanych próbek mogą pomóc, a ja używam i polecam oba, ale to też może być pomocne. (Nawiasem mówiąc, porównanie z portfelem symulacji jest powtórnym niedawnym ponownym wynalazkiem, ale sięga co najmniej aż do Shewharta w 1931 r.)
Powtórzę echo mojej górnej linii. Czasami wydaje się, że żadna dystrybucja markowych produktów w ogóle nie pasuje i musisz iść naprzód, najlepiej jak potrafisz.
źródło
Jak powiedział @Glen_b, możesz porównać swoje dane z danymi, które na pewno są normalne - dane, które sam wygenerowałeś, a następnie polegaj na swoich przeczuciach :)
Poniżej znajduje się przykład z podręcznika OpenIntro Statistics
Rzućmy okiem na ten wykres QQ:
Jest to normalne? Porównajmy to z normalnie dystrybuowanymi danymi:
Ten wygląda lepiej niż nasze dane, więc nasze dane nie wydają się normalne. Upewnijmy się, symulując go kilka razy i kreśląc obok siebie
Nasze przeczucie mówi nam, że próbka prawdopodobnie nie zostanie rozprowadzona normalnie.
Oto kod R, aby to zrobić
źródło
Istnieje wiele testów normalności. Zazwyczaj skupia się na hipotezie zerowej , a mianowicie „ ”. Jednak niewiele uwagi poświęca się hipotezie alternatywnej : „przeciw czemu”?H0:F=Normal
Zazwyczaj testy uwzględniające każdy inny rozkład jako hipotezę alternatywną mają niską moc w porównaniu z testami z właściwą hipotezą alternatywną (patrz na przykład 1 i 2 ).
Istnieje interesujący pakiet R z wdrożeniem kilku testów normalności nieparametrycznej („na północ”
http://cran.r-project.org/web/packages/nortest/index.html
). Jak wspomniano w powyższych artykułach, test współczynnika prawdopodobieństwa, z odpowiednią alternatywną hipotezą, jest silniejszy niż te testy.Pomysł wspomniany przez @Glen_b na temat porównywania twojej próbki z przypadkowymi próbkami z twojego (dopasowanego) modelu jest wspomniany w mojej drugiej referencji. Nazywa się je „QQ-Envelopes” lub „QQ-Fans”. Wymaga to domyślnie posiadania modelu do generowania danych i, w konsekwencji, alternatywnej hipotezy.
źródło
Podczas nauczania mojego kursu strategii modelowania regresji ten temat zawsze niepokoi moich uczniów i mnie. Mówię im, że nasze oceny graficzne są zawsze subiektywne i mam tendencję do martwienia się o wykresy wcześniej niż później, kiedy jestem zmęczony. Dodanie formalnych testów statystycznych nie pomaga: testy mogą wykryć trywialną nienormalność dla bardzo dużych próbek i pominąć ważną nienormalność dla małych . Wolę za pomocą metod, które nie ponoszą normalności, które są skuteczne, np porządkowej regresji ciągłego .Yn Y
źródło