W R mam próbkę 348 miar i chcę wiedzieć, czy mogę założyć, że jest ona normalnie dystrybuowana do przyszłych testów.
Zasadniczo po kolejnej odpowiedzi stosu patrzę na wykres gęstości i wykres QQ z:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Nie mam dużego doświadczenia w statystyce, ale wyglądają jak przykłady normalnych dystrybucji, które widziałem.
Następnie przeprowadzam test Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Jeśli zinterpretuję to poprawnie, powie mi, że można bezpiecznie odrzucić hipotezę zerową, a mianowicie, że rozkład jest normalny.
Spotkałem jednak dwa posty Stack ( tutaj i tutaj ), które mocno podważają przydatność tego testu. Wygląda na to, że jeśli próbka jest duża (czy 348 jest uważana za dużą?), Zawsze powie, że rozkład nie jest normalny.
Jak mam to wszystko interpretować? Czy powinienem trzymać się wykresu QQ i zakładać, że mój rozkład jest normalny?
źródło
Odpowiedzi:
Nie masz tutaj problemu. Twoje dane mogą być nieco nienormalne, ale są wystarczająco normalne, aby nie stwarzały żadnych problemów. Wielu badaczy przeprowadza testy statystyczne, zakładając normalność przy znacznie mniej normalnych danych niż te, które posiadasz.
Ufałbym twoim oczom. Wykresy gęstości i QQ wyglądają rozsądnie, pomimo niewielkiego dodatniego wypaczenia na ogonach. Moim zdaniem nie musisz się martwić o nienormalność tych danych.
Masz N około 350, a wartości p są bardzo zależne od wielkości próby. Przy dużej próbce prawie wszystko może mieć znaczenie. Zostało to omówione tutaj.
Istnieje kilka niewiarygodnych odpowiedzi na ten bardzo popularny post, który w zasadzie dochodzi do wniosku, że przeprowadzenie testu istotności zerowej hipotezy dla nienormalności jest „zasadniczo bezużyteczne”. Przyjęta odpowiedź na ten post jest wspaniałą demonstracją, że nawet gdy dane zostały wygenerowane z procesu prawie gaussowskiego, wystarczająco duża próbka czyni test nienormalny znaczącym.
Przepraszam, zdałem sobie sprawę, że podlinkowałem post, który wspomniałeś w swoim pierwotnym pytaniu. Mój wniosek jest jednak nadal słuszny: Twoje dane nie są tak nienormalne, że powinny powodować problemy.
źródło
Twoja dystrybucja nie jest normalna. Spójrz na ogony (lub ich brak). Poniżej znajduje się to, czego można oczekiwać od normalnego wykresu QQ.
Zobacz ten post, jak interpretować różne wykresy QQ.
Należy pamiętać, że chociaż rozkład może nie być technicznie normalny, może być wystarczająco normalny, aby kwalifikować się do algorytmów wymagających normalności.
źródło