Mam pewne dane, które wyglądają z wykreślaniem wykresu reszt względem czasu prawie normalnie, ale chcę być pewien. Jak mogę sprawdzić normalność resztek błędów?
20
Mam pewne dane, które wyglądają z wykreślaniem wykresu reszt względem czasu prawie normalnie, ale chcę być pewien. Jak mogę sprawdzić normalność resztek błędów?
Odpowiedzi:
Żaden test nie powie, że twoje resztki są normalnie rozłożone. W rzeczywistości można niezawodnie założyć, że tak nie jest .
Testy hipotez nie są na ogół dobrym pomysłem, ponieważ sprawdzają twoje założenia. Wpływ nienormalności na twoje wnioskowanie nie jest na ogół funkcją wielkości próby *, ale wynikiem testu istotności jest . Niewielkie odchylenie od normalności będzie oczywiste przy dużej liczebności próby, nawet jeśli odpowiedź na pytanie o rzeczywiste zainteresowanie („w jakim stopniu wpłynęło to na moje wnioskowanie?”) Może być „prawie wcale”. Odpowiednio duże odchylenie od normalności przy małej liczebności próby może nie mieć znaczenia.
* (dodano w edycji) - w rzeczywistości jest to zdecydowanie zbyt słaba instrukcja. Wpływ nienormalności faktycznie maleje wraz z wielkością próby niemal za każdym razem, gdy podtrzyma się twierdzenie CLT i Slutsky'ego, podczas gdy zdolność do odrzucenia normalności (i prawdopodobnie unikania procedur normalnej teorii) wzrasta wraz z wielkością próby ... więc tylko wtedy, gdy jesteś w stanie rozpoznać, że nienormalność zwykle się zdarza, gdy i tak nie ma znaczenia ... a test nie jest pomocny, gdy ma to znaczenie, w małych próbkach.†
Do pomiaru wielkości efektu zbliża się jakaś diagnostyka (wyświetlanie lub statystyka), która w jakiś sposób mierzy stopień nienormalności. Wykres QQ jest oczywistym obrazem, a wykres QQ z tej samej populacji przy jednej wielkości próby i przy innej wielkości próby to co najmniej oba głośne oszacowania tej samej krzywej - pokazujące w przybliżeniu tę samą „nienormalność”; powinien on przynajmniej w przybliżeniu być monotonicznie powiązany z pożądaną odpowiedzią na interesujące pytanie.
Jeśli musisz skorzystać z testu, Shapiro-Wilk jest prawdopodobnie tak samo dobry jak cokolwiek innego (test Chen-Shapiro jest zwykle nieco lepszy w przypadku alternatyw będących przedmiotem wspólnego zainteresowania, ale trudniej znaleźć implementacje) - ale odpowiada na pytanie już znam odpowiedź na; za każdym razem, gdy nie odrzucisz, daje odpowiedź, której możesz być pewien, że jest zła.
źródło
Test Shapiro-Wilka jest jedną z możliwości.
Test Shapiro-Wilka
Ten test jest implementowany w prawie wszystkich pakietach oprogramowania statystycznego. Hipoteza zerowa polega na tym, że reszty są normalnie rozmieszczone, a zatem mała wartość p wskazuje, że powinieneś odrzucić zero i stwierdzić, że reszty nie są normalnie rozłożone.
Zauważ, że jeśli twoja próbka jest duża, prawie zawsze będziesz ją odrzucać, więc ważniejsza jest wizualizacja reszt.
źródło
Z wikipedii:
Testy normalności jednowymiarowej obejmują test K-kwadrat D'Agostino, test Jarque – Bera, test Andersona – Darlinga, kryterium Craméra – von Misesa, test Lillieforsa na normalność (sama adaptacja testu Kołmogorowa – Smirnowa), Test Shapiro – Wilka, test chi-kwadrat Pearsona i test Shapiro – Francia. W artykule z Journal of Statistics Modeling and Analytics [1] z 2011 r. [1] stwierdzono, że Shapiro-Wilk ma najlepszą moc dla danego znaczenia, a następnie Anderson-Darling, porównując Shapiro-Wilk, Kołmogorow-Smirnov, Lilliefors i Anderson- Testy kochanie.
źródło