Jaka jest różnica między testem normalności Shapiro-Wilka a testem normalności Kołmogorowa-Smirnowa?

Odpowiedzi:

23

Tak naprawdę nie można nawet porównać tych dwóch, ponieważ Kołmogorow-Smirnov jest dla całkowicie określonego rozkładu (więc jeśli testujesz normalność, musisz określić średnią i wariancję; nie można ich oszacować na podstawie danych *), podczas gdy Shapiro-Wilk jest dla normalności, z nieokreśloną średnią i wariancją.

* nie można również standaryzować za pomocą szacunkowych parametrów i testować standardową normę; to właściwie to samo.

Jednym ze sposobów porównania byłoby uzupełnienie Shapiro-Wilka testem dla określonej średniej i wariancji w normie (łączenie testów w pewien sposób) lub dostosowanie tabel KS do oszacowania parametru (ale wtedy nie jest to już rozkład -wolny).

Istnieje taki test (odpowiednik Kołmogorowa-Smirnowa o szacowanych parametrach) - test Lillieforsa; wersja testowa normalności mogłaby zostać poprawnie porównana z Shapiro-Wilkiem (i ogólnie będzie miała mniejszą moc). Bardziej konkurencyjny jest test Andersona-Darlinga (który również musi zostać skorygowany w celu oszacowania parametrów, aby porównanie było ważne).


Jeśli chodzi o to, co testują - test KS (i Lilliefors) sprawdza największą różnicę między empirycznym CDF a określonym rozkładem, podczas gdy Shapiro Wilk skutecznie porównuje dwie oceny wariancji; ściśle powiązany Shapiro-Francia można uznać za funkcję monotoniczną korelacji do kwadratu na wykresie QQ; jeśli dobrze pamiętam, Shapiro-Wilk bierze również pod uwagę kowariancje między statystykami zamówień.

Zredagowano, aby dodać: Podczas gdy Shapiro-Wilk prawie zawsze pokonuje test Lilliefors na temat alternatywnych interesujących alternatyw, przykładem tego nie jest w średnich i dużych próbkach ( -ish). Tam Lilliefors ma większą moc.t30n>60

[Należy pamiętać, że dostępnych jest znacznie więcej testów normalności niż te.]

Glen_b - Przywróć Monikę
źródło
To interesująca odpowiedź, ale mam trochę problemów ze zrozumieniem, jak ją pogodzić z praktyką. Być może powinny to być różne pytania, ale jaka jest konsekwencja zignorowania oszacowania parametru w teście KS? Czy to oznacza, że ​​test Lilleforsa ma mniejszą moc niż nieprawidłowo przeprowadzony KS, w którym na podstawie danych oszacowano pareters?
russellpierce
@rpierce - Głównym skutkiem traktowania oszacowanych parametrów jako znanych jest radykalne obniżenie rzeczywistego poziomu istotności (a zatem i krzywej mocy) od tego, co powinno być, jeśli weźmiesz go pod uwagę (jak robi to Lilliefors). Oznacza to, że Lilliefors to KS „dobrze zrobione” do szacowania parametrów i ma znacznie lepszą moc niż KS. Z drugiej strony Lilliefors ma znacznie gorszą moc niż powiedzmy test Shapiro-Wilka. Krótko mówiąc, KS nie jest szczególnie potężnym testem na początek, a pogarszamy go, ignorując fakt, że dokonujemy oszacowania parametrów.
Glen_b
... pamiętając o tym, kiedy mówimy „lepsza moc” i „gorsza moc”, że ogólnie mówimy o władzy wbrew temu, co ludzie zwykle uważają za interesujące rodzaje alternatyw.
Glen_b
1
Widziałem krzywą mocy; po prostu nie zastanawiałem się, co to znaczy obniżenie lub podniesienie, i zamiast tego Bóg utknął na punkcie twojego drugiego komentarza, zaczynając od: „pamiętania”. Jakoś się przekręciłem i pomyślałem, że mówisz, że „lepsza” moc oznacza, że ​​krzywa mocy powinna być tam, gdzie „powinna” być. Że być może oszukiwaliśmy i uzyskiwaliśmy nierealistyczną moc w KS, ponieważ przekazywaliśmy mu parametry, które powinny zostać ukarane za oszacowanie (ponieważ do tego jestem przyzwyczajony w wyniku nieuznania, że ​​parametr pochodzi z oszacowania) .
russellpierce
1
Nie jestem pewien, jak wcześniej tęskniłem za tymi komentarzami, ale tak, obliczone wartości p na podstawie testu KS z oszacowanymi parametrami tak, jakby były znane / określone, będą zwykle zbyt wysokie. Wypróbuj to w R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))- jeśli wartości p byłyby takie, jakie powinny być, wyglądałoby to jednolicie!
Glen_b
24

Krótko mówiąc, test Shapiro-Wilka jest swoistym testem na normalność, podczas gdy metoda zastosowana w teście Kołmogorowa-Smirnowa jest bardziej ogólna, ale słabsza (co oznacza, że ​​rzadziej poprawnie odrzuca hipotezę zerową o normalności). Obie statystyki przyjmują normalność jako wartość zerową i ustanawiają statystyki testowe na podstawie próbki, ale sposób, w jaki to robią, różni się od siebie w sposób, który czyni je mniej lub bardziej wrażliwe na cechy rozkładów normalnych.

To, jak dokładnie oblicza się W (statystykę testową dla Shapiro-Wilka), jest nieco zaangażowane , ale koncepcyjnie obejmuje szeregowanie wartości próbek według wielkości i mierzenie dopasowania względem oczekiwanych średnich, wariancji i kowariancji. Te wielokrotne porównania z normalnością, jak rozumiem, dają testowi więcej mocy niż test Kołmogorowa-Smirnowa, który jest jednym ze sposobów, w jaki mogą się one różnić.

Z kolei test normalności Kołmogorowa-Smirnowa wywodzi się z ogólnego podejścia do oceny dobroci dopasowania poprzez porównanie oczekiwanego skumulowanego rozkładu z empirycznym skumulowanym rozkładem, względem:

alternatywny tekst

Jako taki jest wrażliwy w środku rozkładu, a nie na ogonach. Jednak KS jest testem zbieżnym, w tym sensie, że skoro n dąży do nieskończoności, test zbiega się z prawdziwą odpowiedzią z prawdopodobieństwem (uważam, że ma tu zastosowanie twierdzenie Glivenko-Cantelli , ale ktoś może mnie poprawić). Są jeszcze dwa sposoby, w jakie te dwa testy mogą różnić się w ocenie normalności.

John L. Taylor
źródło
3
Poza tym ... Test Shapiro-Wilka jest często stosowany przy szacowaniu odstępstw od normalności w małych próbkach. Świetna odpowiedź, John! Dzięki.
aL3xa
+1, dwie inne uwagi na temat KS: można go użyć do testowania dowolnego większego rozkładu (podczas gdy SW dotyczy tylko normalności), a niższa moc może być dobra w przypadku większych próbek.
gung - Przywróć Monikę
Jak dobra moc jest niższa? Dopóki Typ I pozostaje taki sam, czy wyższa moc nie zawsze jest lepsza? Co więcej, KS nie jest ogólnie mniej silny, może tylko leptokurtozę? Na przykład KS ma znacznie większą moc do pochylania bez współmiernego wzrostu liczby błędów typu 1.
Jan
Kolmogorov-Smirnov jest przeznaczony dla w pełni określonej dystrybucji. Shapiro Wilk nie jest. Nie można ich porównywać ... ponieważ jak tylko dokonasz korekt wymaganych, aby były porównywalne, nie będziesz już mieć ani jednego, ani drugiego testu .
Glen_b
Znaleziono to badanie symulacyjne, na wypadek, gdyby dodało coś użytecznego w szczegółach. Ten sam ogólny wniosek jak powyżej: test Shapiro-Wilka jest bardziej czuły. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf
Nick Stauner