Jakich testów używam, aby potwierdzić, że resztki są zwykle rozprowadzane?

20

Mam pewne dane, które wyglądają z wykreślaniem wykresu reszt względem czasu prawie normalnie, ale chcę być pewien. Jak mogę sprawdzić normalność resztek błędów?

pb1
źródło
3
Ściśle powiązane: odpowiednie testy normalności dla małych próbek . Oto kilka innych pytań, które mogą być interesujące: testowanie normalności jest zasadniczo bezużyteczne do dyskusji na temat wartości testowania normalności i co-jeśli-resztki-są-normalnie rozmieszczone-ale-y-jest- nie , dla dyskusji / wyjaśnienia, w jakim sensie normalność jest założeniem modelu liniowego.
gung - Przywróć Monikę
Widać bardzo częste niezrozumienie istoty testu Shapiro Wilk! Prawidłowe znaczenie na korzyść H0 to, że H0 nie może zostać odrzucone, ale UWAGA! Nie oznacza to automatycznie „dane są zwykle dystrybuowane” !!! Alternatywny wynik to „Dane zwykle nie są dystrybuowane”.
Joe Hallenbeck

Odpowiedzi:

28
  1. Żaden test nie powie, że twoje resztki są normalnie rozłożone. W rzeczywistości można niezawodnie założyć, że tak nie jest .

  2. Testy hipotez nie są na ogół dobrym pomysłem, ponieważ sprawdzają twoje założenia. Wpływ nienormalności na twoje wnioskowanie nie jest na ogół funkcją wielkości próby *, ale wynikiem testu istotności jest . Niewielkie odchylenie od normalności będzie oczywiste przy dużej liczebności próby, nawet jeśli odpowiedź na pytanie o rzeczywiste zainteresowanie („w jakim stopniu wpłynęło to na moje wnioskowanie?”) Może być „prawie wcale”. Odpowiednio duże odchylenie od normalności przy małej liczebności próby może nie mieć znaczenia.

    * (dodano w edycji) - w rzeczywistości jest to zdecydowanie zbyt słaba instrukcja. Wpływ nienormalności faktycznie maleje wraz z wielkością próby niemal za każdym razem, gdy podtrzyma się twierdzenie CLT i Slutsky'ego, podczas gdy zdolność do odrzucenia normalności (i prawdopodobnie unikania procedur normalnej teorii) wzrasta wraz z wielkością próby ... więc tylko wtedy, gdy jesteś w stanie rozpoznać, że nienormalność zwykle się zdarza, gdy i tak nie ma znaczenia ... a test nie jest pomocny, gdy ma to znaczenie, w małych próbkach.

    dobrze, przynajmniej jeśli chodzi o poziom istotności. Moc może nadal stanowić problem, jeśli rozważamy duże próbki, tak jak tutaj, może to również być mniejszy problem.

  3. Do pomiaru wielkości efektu zbliża się jakaś diagnostyka (wyświetlanie lub statystyka), która w jakiś sposób mierzy stopień nienormalności. Wykres QQ jest oczywistym obrazem, a wykres QQ z tej samej populacji przy jednej wielkości próby i przy innej wielkości próby to co najmniej oba głośne oszacowania tej samej krzywej - pokazujące w przybliżeniu tę samą „nienormalność”; powinien on przynajmniej w przybliżeniu być monotonicznie powiązany z pożądaną odpowiedzią na interesujące pytanie.

Jeśli musisz skorzystać z testu, Shapiro-Wilk jest prawdopodobnie tak samo dobry jak cokolwiek innego (test Chen-Shapiro jest zwykle nieco lepszy w przypadku alternatyw będących przedmiotem wspólnego zainteresowania, ale trudniej znaleźć implementacje) - ale odpowiada na pytanie już znam odpowiedź na; za każdym razem, gdy nie odrzucisz, daje odpowiedź, której możesz być pewien, że jest zła.

Glen_b - Przywróć Monikę
źródło
4
+1 Glen_b, ponieważ zdobywasz kilka dobrych punktów. Jednak nie byłbym tak negatywnie nastawiony do stosowania testów poprawności dopasowania. Gdy próbka jest niewielka lub umiarkowana, test nie będzie miał wystarczającej mocy, aby wykryć niewielkie odstępstwa od rozkładu normalnego. Bardzo duże różnice mogą skutkować bardzo małymi wartościami p (np. 0,0001 lub niższymi). Mogą to być bardziej formalne wskazania niż wizualna obserwacja wykresu qq, ale nadal bardzo przydatne. Można również spojrzeć na szacunki skośności i kurtozy. W bardzo dużych próbach problemy z dobrością dopasowania są problematyczne.
Michael R. Chernick,
4
W takich przypadkach zostaną wykryte małe odjazdy. Tak długo, jak analityk rozpozna, że ​​w praktyce rozkład populacji nie będzie dokładnie normalny, a odrzucenie hipotezy zerowej mówi mu tylko, że jego rozkład jest nieco nienormalny, nie zbłądzi. Następnie badacz powinien sam ocenić, czy założenie normalności stanowi problem, czy nie, biorąc pod uwagę niewielki odstępstwo, który wykrywa test. Shapiro-Wilk jest w rzeczywistości jednym z bardziej zaawansowanych testów przeciwko hipotezie normalności.
Michael R. Chernick,
+1, szczególnie podoba mi się punkt 2; w związku z tym warto zauważyć, że nawet jeśli przekrzywienie lub kurtoza są dość złe, w / naprawdę duże N, Centralne Twierdzenie Graniczne obejmie cię, więc to jest czas, kiedy najmniej potrzebujesz normalności.
gung - Przywróć Monikę
3
@ gung istnieją pewne okoliczności, w których ważne będzie dobre zbliżenie do normalności. Na przykład podczas konstruowania interwałów predykcji przy użyciu normalnych założeń. Ale nadal polegałbym bardziej na diagnostyce (takiej, która pokazuje, jak nienormalne jest) niż na badaniu
Glen_b
Twoje zdanie na temat przedziałów prognoz jest dobre.
Gung - Przywróć Monikę
8

Test Shapiro-Wilka jest jedną z możliwości.

Test Shapiro-Wilka

Ten test jest implementowany w prawie wszystkich pakietach oprogramowania statystycznego. Hipoteza zerowa polega na tym, że reszty są normalnie rozmieszczone, a zatem mała wartość p wskazuje, że powinieneś odrzucić zero i stwierdzić, że reszty nie są normalnie rozłożone.

Zauważ, że jeśli twoja próbka jest duża, prawie zawsze będziesz ją odrzucać, więc ważniejsza jest wizualizacja reszt.

Dolina górska
źródło
To jest „Wilk”, a nie „Wilks”.
Michael R. Chernick,
1

Z wikipedii:

Testy normalności jednowymiarowej obejmują test K-kwadrat D'Agostino, test Jarque – Bera, test Andersona – Darlinga, kryterium Craméra – von Misesa, test Lillieforsa na normalność (sama adaptacja testu Kołmogorowa – Smirnowa), Test Shapiro – Wilka, test chi-kwadrat Pearsona i test Shapiro – Francia. W artykule z Journal of Statistics Modeling and Analytics [1] z 2011 r. [1] stwierdzono, że Shapiro-Wilk ma najlepszą moc dla danego znaczenia, a następnie Anderson-Darling, porównując Shapiro-Wilk, Kołmogorow-Smirnov, Lilliefors i Anderson- Testy kochanie.

Taylor
źródło
1
-1: Możesz dołączyć link do strony Wikipedii, usunąć przypis („[1]”) i użyć funkcji cytowania bloków.
Bernd Weiss,
1
Zastrzeżenie, które daje Glen_b, jest ważne, aby pamiętać o każdym z tych testów dobroci dopasowania. Myślę, że wynik, który budzisz w Shapiro-Wilk, nie jest tak ogólny, jak się wydaje. Nie wierzę, że istnieje najpotężniejszy na świecie test normalności.
Michael R. Chernick,
2
n1
@GregSnow Nie mam czasu, aby dokładnie przejrzeć twoją paczkę i mogę nie być wystarczająco biegły w R, aby śledzić wszystko. Czy mówisz, że istnieje najpotężniejszy na świecie test na normalność, czy też podajesz przykłady pokazujące, kiedy różne testy są najsilniejsze, a zatem, że globalny nie istnieje. Mam wątpliwości, czy takie istnieje i nie sądzę, by Shapiro-Wilk byłby tym. Jeśli twierdzisz, że taki istnieje, chciałbym zobaczyć matematyczny dowód lub odniesienie do niego.
Michael R. Chernick,
1
@MichaelChernick, moim twierdzeniem jest, że mój test będzie miał tyle samo mocy lub więcej (być może lub bardziej prawdopodobne, że odrzuci hipotezę zerową danych pochodzących z dokładnej normy) jak każdy inny test normalności. Kod R nie jest trudny do naśladowania, kluczowym kodem do obliczenia wartości p jest „tmp.p <- if (any (is.rational (x))) {0”, dowód jego mocy powinien być oczywisty ( Twierdziłem tylko, że jest potężny i dokumentacja może być przydatna, a nie sam test jest przydatny, Google na „aforyzm Cochrane'a”).
Greg Snow,