Niektóre hipotezy można przetestować za pomocą testu t- Studenta (być może przy użyciu poprawki Welcha dla nierównych wariancji w przypadku dwóch próbek) lub za pomocą testu nieparametrycznego, takiego jak test rangowany ze znakiem Wilcoxona, test U Wilcoxona-Manna-Whitneya, lub test sparowanego znaku. Jak możemy podjąć podstawową decyzję o tym, który test jest najbardziej odpowiedni, szczególnie jeśli wielkość próby jest „mała”?
Wiele podręczników wprowadzających i notatek z wykładów podaje podejście „schematu blokowego”, w którym sprawdzana jest normalność (albo - nieumyślnie - za pomocą testu normalności, albo szerzej za pomocą wykresu QQ lub podobnego), aby wybrać między testem t lub testem nieparametrycznym. W przypadku niesparowanego testu t dla dwóch próbek może istnieć dalsze sprawdzenie jednorodności wariancji, aby zdecydować, czy zastosować poprawkę Welcha. Jednym z problemów związanych z tym podejściem jest sposób, w jaki decyzja, który test zastosować, zależy od obserwowanych danych i jak wpływa to na wydajność (moc, współczynnik błędów typu I) wybranego testu.
Innym problemem jest to, jak twarde jest sprawdzanie normalności w małych zestawach danych: testowanie formalne ma małą moc, więc naruszenia mogą nie zostać wykryte, ale podobne problemy dotyczą gałek ocznych danych na wykresie QQ. Nawet rażące naruszenia mogą pozostać niewykryte, np. Jeśli rozkład jest mieszany, ale nie wyciągnięto żadnych obserwacji z jednego składnika mieszaniny. W przeciwieństwie do dużego , nie możemy opierać się na siatce bezpieczeństwa Centralnego Twierdzenia Granicy i asymptotycznej normalności statystyki testowej i rozkładu t .
Jedną z zasadniczych odpowiedzi na to jest „przede wszystkim bezpieczeństwo”: bez możliwości wiarygodnej weryfikacji założenia normalności w małej próbce trzymaj się metod nieparametrycznych. Innym jest rozważenie jakichkolwiek podstaw do przyjęcia normalności, teoretycznie (np. Zmienna jest sumą kilku składników losowych i zastosowanie ma CLT) lub empirycznie (np. Wcześniejsze badania z większą sugerują, że zmienna jest normalna) i zastosowanie testu t tylko wtedy, gdy takie podstawy istnieją . Ale zwykle uzasadnia to jedynie przybliżoną normalność, a przy niskich stopniach swobody trudno jest ocenić, jak blisko normalności musi być, aby uniknąć unieważnienia testu t .
Większość poradników dotyczących wyboru testu t lub testu nieparametrycznego koncentruje się na kwestii normalności. Ale małe próbki powodują również pewne problemy uboczne:
Jeśli wykonujesz „test niepowiązany” lub „niesparowany” test t, czy użyć korekcji Welcha ? Niektórzy używają testu hipotez dla równości wariancji, ale tutaj miałby on małą moc; inni sprawdzają, czy SD są „rozsądnie” bliskie, czy nie (według różnych kryteriów). Czy bezpieczniej jest po prostu zawsze używać korekcji Welcha dla małych próbek, chyba że istnieje jakiś dobry powód, by sądzić, że wariancje populacji są równe?
Jeśli widzisz wybór metod jako kompromis między mocą a solidnością, twierdzenia o asymptotycznej wydajności metod nieparametrycznych są bezużyteczne . Zasada praktyczna, że „ testy Wilcoxona mają około 95% mocy testu t, jeśli dane są naprawdę normalne , i często są znacznie mocniejsze, jeśli dane nie są, więc po prostu użyj Wilcoxona” jest czasami słyszana, ale jeśli 95% dotyczy tylko dużej , jest to błędne rozumowanie dla mniejszych próbek.
Co ze sprawdzaniem założeń dotyczących nieparametrycznych? Niektóre źródła zalecają weryfikację rozkładu symetrycznego przed zastosowaniem testu Wilcoxona (traktując go raczej jako test lokalizacji zamiast dominacji stochastycznej), co powoduje podobne problemy jak sprawdzanie normalności. Jeśli powodem, dla którego stosujemy test nieparametryczny, jest ślepe posłuszeństwo mantrze „bezpieczeństwo przede wszystkim”, wówczas trudność w ocenie skośności z małej próbki najwyraźniej doprowadziłaby nas do niższej mocy testu sparowanego znaku .
Mając na uwadze te problemy z małą próbką, czy istnieje dobra - miejmy nadzieję - możliwa do cytowania - procedura, którą należy wykonać przy podejmowaniu decyzji między testami ti nieparametrycznymi?
Pojawiło się kilka doskonałych odpowiedzi, ale mile widziana jest również odpowiedź dotycząca innych alternatyw dla testów rangowych, takich jak testy permutacyjne.
Odpowiedzi:
Mam zamiar zmienić kolejność pytań na temat.
Niestety niektóre dyskusje na ten temat w książkach itd. Opierają się na otrzymanej mądrości. Czasami otrzymana mądrość jest rozsądna, a czasem mniej (przynajmniej w tym sensie, że koncentruje się na mniejszym problemie, gdy większy problem jest ignorowany); powinniśmy z uwagą przeanalizować przedstawione uzasadnienia dla porady (o ile takie uzasadnienie jest oferowane).
To prawda, ale jest to nieco mylące z kilku powodów, które omawiam w tej odpowiedzi.
To (aby go użyć, chyba że masz powód, by sądzić, że wariancje powinny być równe) jest wskazówką wielu referencji. Wskazuję na niektóre w tej odpowiedzi.
Niektóre referencje na ten temat można zobaczyć tu i tutaj , chociaż jest więcej, które mówią podobne rzeczy.
Problem równości wariancji ma wiele cech podobnych do problemu normalności - ludzie chcą go przetestować, porady sugerują, że uzależnienie wyboru testów od wyników testów może negatywnie wpłynąć na wyniki obu rodzajów kolejnych testów - lepiej po prostu nie zakładać, co nie można odpowiednio uzasadnić (uzasadniając dane, wykorzystując informacje z innych badań dotyczących tych samych zmiennych itp.).
Istnieją jednak różnice. Jednym z nich jest to, że - przynajmniej pod względem rozkładu statystyki testowej w ramach hipotezy zerowej (a tym samym jej odporności na poziom) - nienormalność jest mniej ważna w dużych próbkach (przynajmniej pod względem poziomu istotności, chociaż moc może nadal będzie problemem, jeśli musisz znaleźć małe efekty), podczas gdy efekt nierównych wariancji przy założeniu równości wariancji tak naprawdę nie ustępuje przy dużej próbce.
W testach hipotez liczy się (w pewnych warunkach) przede wszystkim dwie rzeczy:
Jaki jest rzeczywisty poziom błędu typu I?
Jakie jest zachowanie mocy?
Rozważę kilka sytuacji, w których przedstawię kilka zaleceń, biorąc pod uwagę zarówno możliwość nienormalności, jak i nierówne wariancje. W każdym przypadku należy wspomnieć o teście t, aby implikować test Welcha:
Nienormalne (lub nieznane), które mogą mieć prawie równą wariancję:
Jeśli rozkład jest ciężki, ogólnie lepiej będzie z Mannem-Whitneyem, choć jeśli jest tylko trochę ciężki, test t powinien być w porządku. Przy lekkich ogonach test t może być (często) preferowany. Testy permutacyjne są dobrą opcją (możesz nawet wykonać test permutacyjny za pomocą statystyki t, jeśli masz taką skłonność). Odpowiednie są również testy bootstrap.
Nienormalna (lub nieznana), nierówna wariancja (lub nieznany związek wariancji):
Jeśli rozkład jest ciężki, na ogół lepiej będzie z Mannem-Whitneyem - jeśli nierówność wariancji jest związana tylko z nierównością średniej - tj. Jeśli H0 jest prawdą, różnica w spreadie również powinna być nieobecna. GLM są często dobrą opcją, szczególnie jeśli występuje skośność, a rozpiętość jest związana ze średnią. Test permutacji to kolejna opcja, z podobnym zastrzeżeniem jak w przypadku testów opartych na rangach. Testy bootstrap są tutaj dobrą możliwością.
testy rang są rozsądnymi wartościami domyślnymi, jeśli oczekujesz nienormalności (ponownie z powyższym zastrzeżeniem). Jeśli masz zewnętrzne informacje o kształcie lub wariancji, możesz rozważyć GLM. Jeśli oczekujesz, że rzeczy nie będą zbyt dalekie od normalnych, testy T mogą być w porządku.
Rada musi zostać nieco zmodyfikowana, gdy rozkłady są zarówno mocno wypaczone, jak i bardzo dyskretne, takie jak elementy w skali Likerta, w których większość obserwacji należy do jednej z końcowych kategorii. Zatem Wilcoxon-Mann-Whitney niekoniecznie jest lepszym wyborem niż test t.
Symulacja może pomóc w podjęciu dalszych decyzji, gdy masz pewne informacje o prawdopodobnych okolicznościach.
Trudno jest sprawdzić normalność w małym zbiorze danych, i do pewnego stopnia jest to ważna kwestia, ale myślę, że jest jeszcze jedna ważna kwestia, którą musimy rozważyć. Podstawowym problemem jest to, że próba oceny normalności jako podstawy wyboru między testami negatywnie wpływa na właściwości wybranych testów.
Podobnie jednoznacznie nie testują równości wariancji.
Nawet w dużych próbkach - asymptotyczna normalność licznika nie oznacza, że t-statystyka będzie miała rozkład t. Może to jednak nie mieć większego znaczenia, ponieważ nadal powinieneś mieć asymptotyczną normalność (np. CLT dla licznika, a twierdzenie Slutsky'ego sugeruje, że w końcu statystyka t powinna zacząć wyglądać normalnie, jeśli warunki dla obu są ważne).
To właściwie rada, o której wspominam (lub link do wzmianki).
Oba są dobrymi argumentami, szczególnie gdy są poparte faktem, że test t jest dość odporny na umiarkowane odchylenia od normalności. (Należy jednak pamiętać, że „umiarkowane odchylenia” to trudna fraza; pewne rodzaje odchyleń od normalności mogą dość wpłynąć na wydajność testu t, choć te odchylenia są wizualnie bardzo małe - t- test jest mniej odporny na niektóre odchylenia niż na inne. Powinniśmy o tym pamiętać, gdy mówimy o małych odchyleniach od normalności).
Uważaj jednak na sformułowanie „sugeruj, że zmienna jest normalna”. Zachowanie rozsądnej zgodności z normalnością nie jest tym samym, co normalność. Często możemy odrzucić faktyczną normalność, nawet nie widząc danych - na przykład, jeśli dane nie mogą być ujemne, rozkład nie może być normalny. Na szczęście ważne jest to, co faktycznie możemy mieć z poprzednich badań lub wnioskowania o tym, jak dane są skomponowane, co oznacza, że odchylenia od normalności powinny być niewielkie.
Cóż, to jest coś, co możemy dość łatwo ocenić (na przykład za pomocą symulacji, jak wspomniałem wcześniej). Z tego, co widziałem, skośność wydaje się mieć większe znaczenie niż ciężkie ogony (ale z drugiej strony widziałem pewne twierdzenia przeciwne - chociaż nie wiem, na czym to opiera się).
Po przeprowadzeniu takich symulacji w różnych okolicznościach, zarówno dla przypadków z dwiema próbkami, jak i z jedną próbą / różnicą par, wydajność małej próbki w normie w obu przypadkach wydaje się być nieco niższa niż wydajność asymptotyczna, ale wydajność podpisanej rangi, a testy Wilcoxona-Manna-Whitneya są nadal bardzo wysokie, nawet przy bardzo małych próbkach.
Przynajmniej tak jest, jeśli testy są wykonywane na tym samym rzeczywistym poziomie istotności; nie możesz zrobić testu 5% z bardzo małymi próbkami (a przynajmniej nie bez testów losowych), ale jeśli jesteś przygotowany na wykonanie (powiedzmy) testu 5,5% lub 3,2%, to testy rangowe wytrzymują bardzo dobrze w porównaniu z testem t na tym poziomie istotności.
Jest jeszcze jedna alternatywa: przyjąć inne parametryczne założenie. Na przykład, jeśli istnieją wypaczone dane, można na przykład w niektórych sytuacjach rozsądnie rozważyć rozkład gamma lub inną wypaczoną rodzinę jako lepsze przybliżenie - w umiarkowanie dużych próbkach możemy po prostu użyć GLM, ale w bardzo małych próbkach konieczne może być sprawdzenie testu na małej próbce - w wielu przypadkach symulacja może być przydatna.
Alternatywa 2: udoskonalenie testu t (ale dbanie o wybór solidnej procedury, aby nie dyskretnie wynikać z rozkładu wynikowego statystyki testowej) - ma to pewne zalety w porównaniu z procedurą nieparametryczną bardzo małej próby, taką jak zdolność rozważyć testy z niskim poziomem błędu typu I.
Tutaj myślę zgodnie z linijką wykorzystania powiedzmy M-estymatorów położenia (i powiązanych estymatorów skali) w statystyce t do płynnego oparcia się na odchyleniach od normalności. Coś podobnego do Welcha, na przykład:
Można na przykład użyć normalnej symulacji, aby uzyskać wartości p (jeśli rozmiary próbek są bardzo małe, sugerowałbym, że przy ładowaniu początkowym - jeśli rozmiary próbek nie są tak małe, starannie wdrożony bootstrap może całkiem dobrze , ale równie dobrze możemy wrócić do Wilcoxon-Mann-Whitney). Istnieje współczynnik skalowania, a także korekta df, aby uzyskać to, co według mnie byłoby rozsądnym przybliżeniem t. Oznacza to, że powinniśmy uzyskać właściwości, których szukamy, bardzo zbliżone do normalnych i powinniśmy mieć rozsądną odporność w szerokim sąsiedztwie normalnej. Pojawia się wiele problemów, które wykraczałyby poza zakres niniejszego pytania, ale myślę, że w bardzo małych próbach korzyści powinny przewyższać koszty i wymagany dodatkowy wysiłek.
[Nie czytałem literatury na ten temat od bardzo dawna, więc nie mam odpowiednich odniesień do zaoferowania tego zapisu.]
Oczywiście, jeśli nie spodziewałeś się, że rozkład będzie nieco podobny do normalnego, ale raczej podobny do jakiegoś innego rozkładu, możesz podjąć odpowiednie udoskonalenie innego testu parametrycznego.
W rzeczy samej. Zakładam, że masz na myśli podpisany test rangowy *. W przypadku użycia go na sparowanych danych, jeśli jesteś przygotowany na założenie, że dwie dystrybucje mają ten sam kształt oprócz przesunięcia lokalizacji, jesteś bezpieczny, ponieważ różnice powinny być symetryczne. W rzeczywistości nie potrzebujemy nawet tyle; aby test zadziałał, potrzebujesz symetrii pod wartością zerową; nie jest to wymagane w ramach alternatywy (np. weźmy pod uwagę sytuację w parach z identycznie ukształtowanymi prawymi skośnymi ciągłymi rozkładami na dodatniej połowie linii, gdzie skale różnią się w ramach alternatywy, ale nie poniżej zera; podpisany test rang powinien działać zasadniczo zgodnie z oczekiwaniami w ta walizka). Interpretacja testu jest łatwiejsza, jeśli alternatywą jest zmiana lokalizacji.
* (Nazwa Wilcoxona jest powiązana zarówno z jednym, jak i dwoma próbnymi testami rang - podpisana ranga i suma rang; wraz z testem U Mann i Whitney uogólnili sytuację badaną przez Wilcoxona i wprowadzili ważne nowe pomysły dotyczące oceny rozkładu zerowego, ale priorytetem między dwoma zbiorami autorów Wilcoxona-Manna-Whitneya jest oczywiście Wilcoxon - więc przynajmniej jeśli weźmiemy pod uwagę Wilcoxon kontra Mann i Whitney, Wilcoxon zajmuje pierwsze miejsce w mojej książce, jednak wydaje się, że prawo Stiglera bije mnie jeszcze raz, a Wilcoxon być może powinien podzielić część tego priorytetu z wieloma wcześniejszymi autorami i (oprócz Manna i Whitneya) powinien podzielić się uznaniem z kilkoma odkrywcami równoważnego testu. [4] [5])
Bibliografia
[1]: Zimmerman DW i Zumbo BN, (1993),
Transformacje rang i moc testu t Studenta i testu t Welcha dla populacji nienormalnych,
Canadian Journal Experimental Psychology, 47 : 523–39.
[2]: JCF de Winter (2013),
„Korzystanie z testu t-Studenta przy bardzo małych próbkach”, „
Ocena praktyczna, badania i ocena” , 18 : 10, sierpień, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay i Michael A. Proschan (2010),
„Wilcoxon-Mann-Whitney czy test t? Na podstawie założeń do testów hipotez i wielu interpretacji reguł decyzyjnych”,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW i Johnston, JE (2012),
„ Dwupróbkowy test sumy rang: Wczesny rozwój”,
Electronic Journal for History of Probability and Statistics , Vol. 8, grudzień
pdf
[5]: Kruskal, WH (1957),
„Notatki historyczne dotyczące niesparowanego testu dwóch próbek Wilcoxona”,
Journal of the American Statistics Association , 52 , 356–360.
źródło
Podsumowując, niektóre sugerowane wskazówki są następujące:
Istnieją dwa rodzaje założeń częstej metody statystycznej, które są często brane pod uwagę. Pierwszym z nich są założenia wymagane do tego, aby metoda zachowała błąd typu I. Drugi dotyczy zachowania błędu typu II (optymalność; czułość). Uważam, że najlepszym sposobem na ujawnienie założeń potrzebnych do drugiego jest osadzenie testu nieparametrycznego w modelu semiparametrycznym, jak opisano powyżej. Rzeczywiste połączenie między nimi pochodzi z efektywnych testów punktowych Rao wynikających z modelu półparametrycznego. Licznikiem testu punktowego z modelu proporcjonalnych szans dla przypadku dwóch prób jest dokładnie statystyka suma rang.
źródło
Rand Wilcox w swoich publikacjach i książkach podaje kilka bardzo ważnych punktów, z których wiele zostało wymienionych przez Franka Harrella i Glen_b we wcześniejszych postach.
Niektóre kluczowe sugestie to:
Dwa dobre referencje to Wilcox ( 2010 ) i Wilcox ( 2012 ).
źródło
Bradley w swojej pracy Testy statystyczne bez dystrybucji (1968, s. 17–24) przedstawia trzynaście kontrastów między tym, co nazywa testem „klasycznym”, a testem „bez dystrybucji”. Pamiętaj, że Bradley rozróżnia „nieparametryczny” i „bez dystrybucji”, ale dla celów twojego pytania ta różnica nie jest istotna. Do tych trzynastu należą elementy, które odnoszą się nie tylko do pochodnych testów, ale ich zastosowań. Obejmują one:
źródło
Zaczynam odpowiadać na to bardzo interesujące pytanie.
W przypadku niesparowanych danych:
Wykonanie pięciu dwu-próbnych testów lokalizacji dla wypaczonych rozkładów z nierównymi wariancjami przez Mortena W. Fagerlanda, Leiv Sandvik (za paywall) przeprowadza serię eksperymentów z 5 różnymi testami (test t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney i Brunner-Munzel) dla różnych kombinacji wielkości próby, proporcji próbki, odstępstwa od normalności i tak dalej. Artykuł ostatecznie sugeruje, że Welch U w ogóle,
Ale w dodatku A artykułu wymieniono wyniki dla każdej kombinacji wielkości próbek. A dla małych rozmiarów próbek (m = 10 n = 10 lub 25) wyniki są bardziej mylące (zgodnie z oczekiwaniami) - w mojej ocenie wyników (nie autorów) Welch U, Brunner-Munzel wydaje się równie dobrze, a Test t także dobrze w przypadku m = 10 in = 10.
To wiem do tej pory.
Dla „szybkiego” rozwiązania cytowałem zwiększenie świadomości lekarzy na temat wpływu statystyki na wyniki badań: moc porównawcza testu t i testu sumy rang Wilcoxona w badaniach małych próbek przez Patricka D Bridge i Shlomo S. Sawilowsky'ego (także za paywallem) i przejdź bezpośrednio do Wilcoxona bez względu na wielkość próbki, ale na przykład emptor z zastrzeżeniem. Czy zawsze powinniśmy wybierać test nieparametryczny, porównując dwa pozornie nietypowe rozkłady? autorzy: Eva Skovlund i Grete U. Fensta .
Nie znalazłem jeszcze podobnych wyników dla sparowanych danych
źródło
Biorąc pod uwagę następujące linki:
Czy testowanie normalności jest „zasadniczo bezużyteczne”?
Potrzeba i najlepszy sposób określenia normalności danych
Upraszczając, ponieważ testy nieparametryczne są dość dobre nawet dla normalnych danych, dlaczego nie używać ich zawsze do małych próbek.
źródło
Symulowanie różnicy średnich populacji gamma
Porównanie testu t i testu Manna Whitneya
Podsumowanie rezultatów
Eksperyment 1) Różne środki, ta sama wariancja
Źródła:
Rozkłady ludności
Wyniki symulacji
Dyskusja
Dyskusja : gdy wariancja dwóch populacji jest rzeczywiście taka sama, test Manna Whitneya znacznie przewyższa test t pod względem mocy dla małej wielkości próby, ale ma wyższy poziom błędu typu 1
Eksperyment 2: Różne wariancje, ta sama średnia
Dyskusja Wyniki symulacji pokazują, że test t jest bardzo odporny na różne wariancje, a błąd typu I jest bliski 5% dla wszystkich rozmiarów próbek. Zgodnie z oczekiwaniami test Manna Whitneya działa słabo w tym przypadku, ponieważ nie sprawdza on różnicy średnich, ale różnic w rozkładach
źródło