Czytałem gdzieś w literaturze, że test Shapiro – Wilka jest uważany za najlepszy test normalności, ponieważ dla danego poziomu istotności, , prawdopodobieństwo odrzucenia hipotezy zerowej, jeśli jest fałszywe, jest wyższe niż w przypadku drugiej testy normalności.
Czy mógłbyś mi wyjaśnić, używając matematycznych argumentów, jeśli to możliwe, jak dokładnie działa w porównaniu z innymi testami normalności (powiedzmy test Andersona – Darlinga)?
Odpowiedzi:
Najpierw komentarz ogólny: Zauważ, że test Andersona-Darlinga jest dla całkowicie określonych rozkładów, podczas gdy Shapiro-Wilk jest dla normalnych o dowolnej średniej i wariancji. Jednak, jak zauważono w D'Agostino i Stephens [ 1 ], Anderson-Darling dostosowuje się w bardzo wygodny sposób do przypadku oszacowania, podobnie jak (ale zbiega się szybciej i jest modyfikowany w sposób, który jest łatwiejszy do opanowania niż test Lilliefors dla sprawa Kołmogorowa-Smirnowa). W szczególności, w normalnym, przy n = 5 , tabel wartości asymptotycznej A * = 2 ( 1 + 4[ 1 ] n = 5 może być użyte (nie sprawdzaj poprawności dopasowania dla n <5).ZA∗= A.2)( 1 + 4n- 25n2))
Ogólnie rzecz biorąc, jest to nieprawda.
To, które testy normalności są „lepsze”, zależy od tego, które klasy alternatyw Cię interesują. Jednym z powodów popularności Shapiro-Wilk jest to, że ma on bardzo dobrą moc w szerokim zakresie przydatnych alternatyw. Pojawia się w wielu badaniach nad mocą i zwykle działa bardzo dobrze, ale nie jest to ogólnie najlepsza.
Łatwo jest znaleźć alternatywy, w których jest mniej wydajny.
Anderson-Darling (skorygowany o oszacowanie parametrów) radzi sobie lepiej przy podwójnym wykładniczym. Moment-skośność działa lepiej w porównaniu z niektórymi alternatywami skosu.
Wyjaśnię ogólnie (jeśli chcesz uzyskać bardziej szczegółowe informacje na temat oryginalnych artykułów i niektórych późniejszych artykułów, które je omawiają, byłbyś najlepszym wyborem):
Rozważ prostszy, ale ściśle powiązany test, Shapiro-Francia; w rzeczywistości jest to funkcja korelacji między statystykami zamówień a oczekiwanymi statystykami zamówień w normalności (i jako taka, całkiem bezpośrednią miarą „jak prosta jest linia” na normalnym wykresie QQ). O ile pamiętam, Shapiro-Wilk jest mocniejszy, ponieważ bierze również pod uwagę kowariancje między statystykami rzędu, tworząc najlepszy liniowy estymator z wykresu QQ, który jest następnie skalowany przez . Kiedy rozkład jest daleki od normalnego, stosunek nie jest bliski 1.σ s
Dla porównania Anderson-Darling, podobnie jak Kolmogorov-Smirnov i Cramér-von Mises, opiera się na empirycznym CDF. W szczególności opiera się na ważonych odchyleniach między ECDF i teoretycznym ECDF (ważenie dla wariancji czyni go bardziej wrażliwym na odchylenia w ogonie).
Test Shapiro i Chena (1995) (oparty na odstępach między statystykami zamówień) często wykazuje nieco większą moc niż Shapiro-Wilk (ale nie zawsze); często działają bardzo podobnie.[ 2 ]
-
Użyj Shapiro Wilk, ponieważ jest często potężny, szeroko dostępny i wiele osób go zna (eliminując potrzebę szczegółowego wyjaśnienia, co to jest, jeśli używasz go w gazecie) - po prostu nie używaj go pod złudzeniem, że jest to „najlepszy test normalności”. Nie ma jednego najlepszego testu normalności.
[1]: D'Agostino, RB i Stephens, MA (1986)
Goodness of Fit Techniques ,
Marcel Dekker, Nowy Jork.
[2]: Chen, L. i Shapiro, S. (1995)
„Alternatywny test normalności oparty na znormalizowanych odstępach”.
Journal of Statistics Computation and Simulation 53 , 269-287.
źródło
shapiro.test
w R pojawi się błąd.sample size must be between 3 and 5000
Co jeszcze należy zastosować test?Oczywiście porównanie, które przeczytałeś, nie obejmowało
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ), ponieważ ma najwyższą możliwą moc spośród wszystkich alternatyw. Należy więc uznać to za „najlepsze”, jeśli jedynym czynnikiem jest moc (zauważ, że moje opinie są wyraźnie stronnicze, ale udokumentowane w linku / dokumentacji).Zgadzam się jednak z komentarzem Nicka Coxa, że najlepszym testem jest raczej fabuła niż test formalny, ponieważ pytanie „wystarczająco normalne” jest o wiele ważniejsze niż „dokładnie normalne”. Jeśli chcesz sensownego testu, sugerowałbym połączenie wykresu qq z metodologią przedstawioną w tym artykule:
Jedną z implementacji tego jest
vis.test
funkcja w pakiecie TeachingDemos dla R (ten sam pakiet coSnowsPenultimateNormalityTest
).źródło
Jestem spóźniony na imprezę, ale odpowiem referencjami do opublikowanych badań recenzowanych. Powodem, dla którego nie odpowiadam na pytanie OP tak / nie, jest to, że jest ono bardziej skomplikowane, niż mogłoby się wydawać. Nie ma jednego testu, który byłby najsilniejszy dla próbek pochodzących z dowolnej dystrybucji z wartościami odstającymi lub bez wartości odstających. Wartości odstające mogą poważnie zmniejszyć moc jednego testu i zwiększyć się w innym. Niektóre testy działają lepiej, gdy próbka pochodzi z symetrycznego rozkładu itp.
i
Jeśli naprawdę chcesz sprowadzić swoje badania do tak / nie, odpowiedź brzmi TAK. Test Shapiro-Wilksa wydaje się być w większości przypadków nieco bardziej wydajny niż Anderson-Darling. Polecają test Shapiro Wilk, gdy nie masz na myśli szczególnej alternatywnej dystrybucji. Jeśli jednak jesteś zainteresowany tym tematem, papier warto przeczytać. Przynajmniej spójrz na tabele.
Edith Seier, Testy normalności: porównanie mocy , w Międzynarodowej Encyklopedii Nauk Statystycznych, 2014 - Badanie opublikowanych badań na ten temat. Ponownie, odpowiedź zależy od próbki i twojej wiedzy o alternatywnym rozkładzie, ale trywialna odpowiedź brzmi TAK, Shapiro-Wilk jest zwykle silniejszy, ale nie zawsze.
Henry C. Thode, Testy normalności , w Międzynarodowej Encyklopedii Nauk Statystycznych, 2014 - Opis popularnych testów normalności. Jego zalecenie:
Teraz chodziło o testy jednowymiarowe. Thode (2002) ma również test wielowymiarowy, dane cenzurowane, normalne mieszaniny, testy w obecności wartości odstających i wiele więcej.
źródło
Poważniejsza odpowiedź na dalsze pytania, a zwłaszcza ciągłe zainteresowanie @ silverfish. Jednym z podejść do odpowiedzi na takie pytania jest uruchomienie symulacji w celu porównania. Poniżej znajduje się kod R, który symuluje dane w ramach różnych alternatyw oraz wykonuje kilka testów normalności i porównuje moc (oraz przedział ufności dla mocy, ponieważ moc jest szacowana za pomocą symulacji). Poprawiłem nieco rozmiary próbek, ponieważ nie było interesujące, gdy wiele mocy było zbliżonych do 100% lub 5%, znalazłem okrągłe liczby, które dawały moc blisko 80%. Każdy zainteresowany może łatwo pobrać ten kod i zmodyfikować go dla różnych założeń, różnych alternatyw itp.
Widać, że istnieją alternatywy, w przypadku których niektóre testy wypadają lepiej, a inne w gorszych. Ważnym pytaniem jest zatem, które alternatywy są najbardziej realistyczne dla twoich pytań naukowych / dziedziny. Naprawdę należy to uzupełnić symulacją wpływu rodzajów nienormalności będących przedmiotem zainteresowania na inne wykonywane testy. Niektóre z tych rodzajów nienormalności znacznie wpływają na inne testy oparte na normalnych, inne nie mają na nie większego wpływu.
źródło