Wykres QQ wygląda normalnie, ale test Shapiro-Wilka mówi inaczej

12

W R mam próbkę 348 miar i chcę wiedzieć, czy mogę założyć, że jest ona normalnie dystrybuowana do przyszłych testów.

Zasadniczo po kolejnej odpowiedzi stosu patrzę na wykres gęstości i wykres QQ z:

plot(density(Clinical$cancer_age))

wprowadź opis zdjęcia tutaj

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

wprowadź opis zdjęcia tutaj

Nie mam dużego doświadczenia w statystyce, ale wyglądają jak przykłady normalnych dystrybucji, które widziałem.

Następnie przeprowadzam test Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Jeśli zinterpretuję to poprawnie, powie mi, że można bezpiecznie odrzucić hipotezę zerową, a mianowicie, że rozkład jest normalny.

Spotkałem jednak dwa posty Stack ( tutaj i tutaj ), które mocno podważają przydatność tego testu. Wygląda na to, że jeśli próbka jest duża (czy 348 jest uważana za dużą?), Zawsze powie, że rozkład nie jest normalny.

Jak mam to wszystko interpretować? Czy powinienem trzymać się wykresu QQ i zakładać, że mój rozkład jest normalny?

francoiskroll
źródło
4
Wykres qq wydaje się pokazywać odstępstwo od normy w reszce. Również każdy przydatny test dobroci dopasowania zostanie odrzucony w bardzo dużych próbkach tylko dlatego, że wykryte zostaną niewielkie odstępstwa od normalności. To nie jest krytyka testu Shapiro-Wilka, ale raczej cecha sprawdzania poprawności dopasowania.
Michael R. Chernick
4
Dlaczego przyjęcie normalnego rozkładu jest dla Ciebie ważne? Co zamierzasz zrobić w oparciu o to założenie?
Roland
6
Wystarczy dodać do komentarzy Rolanda - wiele testów, które formalnie zakładają rozkład normalny, jest w rzeczywistości dość solidnych przy niewielkich odstępstwach od normalności (np. Ponieważ rozkład statystyki testu jest asymptotycznie poprawny). Jeśli możesz wyjaśnić, co zamierzasz zrobić, możesz uzyskać bardziej pomocne odpowiedzi.
P.Windridge
1
@mdewey, ostra obserwacja! Nie chodzi o wiek występowania, ale o „wiek” guza mierzony metylacją DNA.
francoiskroll
2
Myślę, że warto zbadać niewielką liczbę ekstremalnych obserwacji, aby sprawdzić, czy są to błędy pomiarowe.
mdewey,

Odpowiedzi:

11

Nie masz tutaj problemu. Twoje dane mogą być nieco nienormalne, ale są wystarczająco normalne, aby nie stwarzały żadnych problemów. Wielu badaczy przeprowadza testy statystyczne, zakładając normalność przy znacznie mniej normalnych danych niż te, które posiadasz.

Ufałbym twoim oczom. Wykresy gęstości i QQ wyglądają rozsądnie, pomimo niewielkiego dodatniego wypaczenia na ogonach. Moim zdaniem nie musisz się martwić o nienormalność tych danych.

Masz N około 350, a wartości p są bardzo zależne od wielkości próby. Przy dużej próbce prawie wszystko może mieć znaczenie. Zostało to omówione tutaj.

Istnieje kilka niewiarygodnych odpowiedzi na ten bardzo popularny post, który w zasadzie dochodzi do wniosku, że przeprowadzenie testu istotności zerowej hipotezy dla nienormalności jest „zasadniczo bezużyteczne”. Przyjęta odpowiedź na ten post jest wspaniałą demonstracją, że nawet gdy dane zostały wygenerowane z procesu prawie gaussowskiego, wystarczająco duża próbka czyni test nienormalny znaczącym.


Przepraszam, zdałem sobie sprawę, że podlinkowałem post, który wspomniałeś w swoim pierwotnym pytaniu. Mój wniosek jest jednak nadal słuszny: Twoje dane nie są tak nienormalne, że powinny powodować problemy.

Mark White
źródło
To, że niektórzy badacze są bardzo niechlujni, nie oznacza, że ​​możesz być trochę niechlujny :). Jednak zgadzam się z tym, że wiele testów statystycznych, które formalnie zakładają normalność, są w rzeczywistości dość tolerancyjne wobec tego, co karmisz
P.Windridge
2
„To, że niektórzy badacze są bardzo niechlujni, nie oznacza, że ​​możesz być trochę niechlujny :)” Dobra uwaga; to był zły argument z mojej strony. „Jednak zgadzam się z tym, że wiele testów statystycznych, które formalnie zakładają normalność, jest w rzeczywistości dość tolerancyjnych wobec tego, co je karmisz”. W rzeczy samej. Każdy profesor ilościowy, który widziałem, spojrzał na takie wykresy QQ i powiedział: „Tak, to w porządku”.
Mark White
4

Twoja dystrybucja nie jest normalna. Spójrz na ogony (lub ich brak). Poniżej znajduje się to, czego można oczekiwać od normalnego wykresu QQ.

wprowadź opis zdjęcia tutaj

Zobacz ten post, jak interpretować różne wykresy QQ.

Należy pamiętać, że chociaż rozkład może nie być technicznie normalny, może być wystarczająco normalny, aby kwalifikować się do algorytmów wymagających normalności.

naprawiać krzywdę
źródło
1
O czym mówisz, uruchomiłem 9 normalnych wykresów qq z próbek bezpośrednio z rozkładu normalnego, używając kodu set.seed (100) par (mfrow = c (3,3)) dla (i in 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} i wykres (3,2) wyglądają bardzo podobnie do sytuacji OP.
Josh
1
Zazwyczaj nie chcesz skupiać się na ogonach, ponieważ często będą dziwne, chociaż bardzo złe ogony dadzą ci słabe wyniki. Naprawdę chcesz skupić się na środku.
Josh
jesteś niepoprawny Josh. proszę odwołać się do normalnego testu, aby sprawdzić, czy hipoteza zerowa normalności została odrzucona.
zadośćuczynienie
1
Masz rację. Początkowo czytałem twój post, ponieważ wykresy qq nie były wystarczająco normalne i przepraszam.
Josh
2
@Josh, środek rozkładu nie ma znaczenia dla testów hipotez; liczą się ogony. Masz to do tyłu.
Gung - Przywróć Monikę