Jak wybrać test t lub test nieparametryczny, np. Wilcoxon w małych próbkach

96

Niektóre hipotezy można przetestować za pomocą testu t- Studenta (być może przy użyciu poprawki Welcha dla nierównych wariancji w przypadku dwóch próbek) lub za pomocą testu nieparametrycznego, takiego jak test rangowany ze znakiem Wilcoxona, test U Wilcoxona-Manna-Whitneya, lub test sparowanego znaku. Jak możemy podjąć podstawową decyzję o tym, który test jest najbardziej odpowiedni, szczególnie jeśli wielkość próby jest „mała”?

Wiele podręczników wprowadzających i notatek z wykładów podaje podejście „schematu blokowego”, w którym sprawdzana jest normalność (albo - nieumyślnie - za pomocą testu normalności, albo szerzej za pomocą wykresu QQ lub podobnego), aby wybrać między testem t lub testem nieparametrycznym. W przypadku niesparowanego testu t dla dwóch próbek może istnieć dalsze sprawdzenie jednorodności wariancji, aby zdecydować, czy zastosować poprawkę Welcha. Jednym z problemów związanych z tym podejściem jest sposób, w jaki decyzja, który test zastosować, zależy od obserwowanych danych i jak wpływa to na wydajność (moc, współczynnik błędów typu I) wybranego testu.

Innym problemem jest to, jak twarde jest sprawdzanie normalności w małych zestawach danych: testowanie formalne ma małą moc, więc naruszenia mogą nie zostać wykryte, ale podobne problemy dotyczą gałek ocznych danych na wykresie QQ. Nawet rażące naruszenia mogą pozostać niewykryte, np. Jeśli rozkład jest mieszany, ale nie wyciągnięto żadnych obserwacji z jednego składnika mieszaniny. W przeciwieństwie do dużego , nie możemy opierać się na siatce bezpieczeństwa Centralnego Twierdzenia Granicy i asymptotycznej normalności statystyki testowej i rozkładu t .n

Jedną z zasadniczych odpowiedzi na to jest „przede wszystkim bezpieczeństwo”: bez możliwości wiarygodnej weryfikacji założenia normalności w małej próbce trzymaj się metod nieparametrycznych. Innym jest rozważenie jakichkolwiek podstaw do przyjęcia normalności, teoretycznie (np. Zmienna jest sumą kilku składników losowych i zastosowanie ma CLT) lub empirycznie (np. Wcześniejsze badania z większą sugerują, że zmienna jest normalna) i zastosowanie testu t tylko wtedy, gdy takie podstawy istnieją . Ale zwykle uzasadnia to jedynie przybliżoną normalność, a przy niskich stopniach swobody trudno jest ocenić, jak blisko normalności musi być, aby uniknąć unieważnienia testu t .n

Większość poradników dotyczących wyboru testu t lub testu nieparametrycznego koncentruje się na kwestii normalności. Ale małe próbki powodują również pewne problemy uboczne:

  • Jeśli wykonujesz „test niepowiązany” lub „niesparowany” test t, czy użyć korekcji Welcha ? Niektórzy używają testu hipotez dla równości wariancji, ale tutaj miałby on małą moc; inni sprawdzają, czy SD są „rozsądnie” bliskie, czy nie (według różnych kryteriów). Czy bezpieczniej jest po prostu zawsze używać korekcji Welcha dla małych próbek, chyba że istnieje jakiś dobry powód, by sądzić, że wariancje populacji są równe?

  • Jeśli widzisz wybór metod jako kompromis między mocą a solidnością, twierdzenia o asymptotycznej wydajności metod nieparametrycznych są bezużyteczne . Zasada praktyczna, że ​​„ testy Wilcoxona mają około 95% mocy testu t, jeśli dane są naprawdę normalne , i często są znacznie mocniejsze, jeśli dane nie są, więc po prostu użyj Wilcoxona” jest czasami słyszana, ale jeśli 95% dotyczy tylko dużej , jest to błędne rozumowanie dla mniejszych próbek.n

  • n

  • Co ze sprawdzaniem założeń dotyczących nieparametrycznych? Niektóre źródła zalecają weryfikację rozkładu symetrycznego przed zastosowaniem testu Wilcoxona (traktując go raczej jako test lokalizacji zamiast dominacji stochastycznej), co powoduje podobne problemy jak sprawdzanie normalności. Jeśli powodem, dla którego stosujemy test nieparametryczny, jest ślepe posłuszeństwo mantrze „bezpieczeństwo przede wszystkim”, wówczas trudność w ocenie skośności z małej próbki najwyraźniej doprowadziłaby nas do niższej mocy testu sparowanego znaku .

Mając na uwadze te problemy z małą próbką, czy istnieje dobra - miejmy nadzieję - możliwa do cytowania - procedura, którą należy wykonać przy podejmowaniu decyzji między testami ti nieparametrycznymi?

Pojawiło się kilka doskonałych odpowiedzi, ale mile widziana jest również odpowiedź dotycząca innych alternatyw dla testów rangowych, takich jak testy permutacyjne.

Silverfish
źródło
2
Powinienem wyjaśnić, czym może być „metoda wyboru testu” - teksty wprowadzające często wykorzystują schematy blokowe. W przypadku niesparowanych danych, może: „1. Użyj jakiejś metody, aby sprawdzić, czy obie próbki są normalnie rozłożone (jeśli nie, przejdź do 3), 2. Użyj jakiejś metody, aby sprawdzić nierówne wariancje: jeśli tak, wykonaj test t dla dwóch próbek z Jeśli nie, poprawka Welcha, wykonaj bez korekty. 3. Spróbuj przekształcić dane do normalności (jeśli prace przechodzą do 2, przejdź do 4). 4. Zamiast tego wykonaj test U (prawdopodobnie po sprawdzeniu różnych założeń). ” Ale wiele z tych kroków wydaje się niezadowalających dla małych n, jak mam nadzieję, że moje Q wyjaśnia!
Silverfish
2
Interesujące pytanie (+1) i odważny ruch, aby ustawić nagrodę. Czekam na ciekawe odpowiedzi. Nawiasem mówiąc, to, co często widzę stosowane w mojej dziedzinie, to test permutacji (zamiast testu t lub Manna-Whitneya-Wilcoxona). Myślę, że można to również uznać za godnego kandydata. Poza tym nigdy nie określiłeś, co rozumiesz przez „niewielki rozmiar próbki”.
ameba
1
@Alexis Wiele książek twierdzi, że test Wilcoxona zakłada symetrię względem mediany, przynajmniej jeśli wyniki są postrzegane jako stwierdzenie o lokalizacji (niektórzy zalecają spisek do sprawdzenia: patrz moja dyskusja z Glenem powyżej / odpowiedź Franka Harrella poniżej na niebezpieczeństwa wieloetapowości procedura). Również niektóre źródła podają, że Wilcoxon-Mann-Whitney U zakłada, że ​​rozkłady grupowe różnią się tylko tłumaczeniem (i sugerują wizualną kontrolę histogramów lub empirycznych CDF). Sig Test U może wynikać z różnych rozkładów kształtu, nawet jeśli mediany są równe. Zobacz także artykuły cytowane w komentarzach pod odpowiedzią Franka Harrella.
Silverfish,
3
0:P(XA>XB)=0.5
2
Warto zbadać, jak „wadliwe” jest rozumowanie „95% mocy dla Wilcoxona” dla małych próbek (częściowo zależy to od tego, co dokładnie robi się i jak małe jest małe). Jeśli na przykład z przyjemnością przeprowadzisz testy na poziomie 5,5% zamiast 5%, gdyby był to najbliższy odpowiedni możliwy do osiągnięcia poziom istotności, moc często utrzymuje się dość dobrze. Oczywiście raz można - na etapie „obliczania mocy” przed zebraniem danych - dowiedzieć się, jakie mogą być okoliczności i zorientować się, jakie właściwości Wilcoxon mają przy rozważanych wielkościach próbek.
Glen_b

Odpowiedzi:

67

Mam zamiar zmienić kolejność pytań na temat.

Uważam, że podręczniki i notatki z wykładów często się nie zgadzają, i chciałbym, aby system działał w oparciu o wybór, który można bezpiecznie zalecić jako najlepszą praktykę, a zwłaszcza podręcznik lub artykuł, na który można się powołać.

Niestety niektóre dyskusje na ten temat w książkach itd. Opierają się na otrzymanej mądrości. Czasami otrzymana mądrość jest rozsądna, a czasem mniej (przynajmniej w tym sensie, że koncentruje się na mniejszym problemie, gdy większy problem jest ignorowany); powinniśmy z uwagą przeanalizować przedstawione uzasadnienia dla porady (o ile takie uzasadnienie jest oferowane).

Większość poradników dotyczących wyboru testu t lub testu nieparametrycznego koncentruje się na kwestii normalności.

To prawda, ale jest to nieco mylące z kilku powodów, które omawiam w tej odpowiedzi.

Jeśli wykonujesz „test niepowiązany” lub „niesparowany” test t, czy użyć korekcji Welcha?

To (aby go użyć, chyba że masz powód, by sądzić, że wariancje powinny być równe) jest wskazówką wielu referencji. Wskazuję na niektóre w tej odpowiedzi.

Niektórzy używają testu hipotez dla równości wariancji, ale tutaj miałby on małą moc. Zasadniczo tylko sprawdzam, czy przykładowe SD są „rozsądnie” bliskie, czy nie (co jest nieco subiektywne, więc musi istnieć bardziej zasadowy sposób robienia tego), ale znowu, przy niskiej n może się zdarzyć, że SD populacji są raczej dalsze oprócz tych przykładowych.

Czy bezpieczniej jest po prostu zawsze używać korekcji Welcha dla małych próbek, chyba że istnieje jakiś dobry powód, by sądzić, że wariancje populacji są równe? Taka jest rada. Na właściwości testów ma wpływ wybór oparty na teście założeń.

Niektóre referencje na ten temat można zobaczyć tu i tutaj , chociaż jest więcej, które mówią podobne rzeczy.

Problem równości wariancji ma wiele cech podobnych do problemu normalności - ludzie chcą go przetestować, porady sugerują, że uzależnienie wyboru testów od wyników testów może negatywnie wpłynąć na wyniki obu rodzajów kolejnych testów - lepiej po prostu nie zakładać, co nie można odpowiednio uzasadnić (uzasadniając dane, wykorzystując informacje z innych badań dotyczących tych samych zmiennych itp.).

Istnieją jednak różnice. Jednym z nich jest to, że - przynajmniej pod względem rozkładu statystyki testowej w ramach hipotezy zerowej (a tym samym jej odporności na poziom) - nienormalność jest mniej ważna w dużych próbkach (przynajmniej pod względem poziomu istotności, chociaż moc może nadal będzie problemem, jeśli musisz znaleźć małe efekty), podczas gdy efekt nierównych wariancji przy założeniu równości wariancji tak naprawdę nie ustępuje przy dużej próbce.

Jaką podstawową metodę można zalecić przy wyborze najbardziej odpowiedniego testu, gdy wielkość próbki jest „mała”?

W testach hipotez liczy się (w pewnych warunkach) przede wszystkim dwie rzeczy:

  • Jaki jest rzeczywisty poziom błędu typu I?

  • Jakie jest zachowanie mocy?

α

Mając na uwadze te problemy z małymi próbkami, czy istnieje dobra - miejmy nadzieję, że cytowana - lista kontrolna do wykonania przy podejmowaniu decyzji między testami t i nieparametrycznymi?

Rozważę kilka sytuacji, w których przedstawię kilka zaleceń, biorąc pod uwagę zarówno możliwość nienormalności, jak i nierówne wariancje. W każdym przypadku należy wspomnieć o teście t, aby implikować test Welcha:

  • n średnio duży

Nienormalne (lub nieznane), które mogą mieć prawie równą wariancję:

Jeśli rozkład jest ciężki, ogólnie lepiej będzie z Mannem-Whitneyem, choć jeśli jest tylko trochę ciężki, test t powinien być w porządku. Przy lekkich ogonach test t może być (często) preferowany. Testy permutacyjne są dobrą opcją (możesz nawet wykonać test permutacyjny za pomocą statystyki t, jeśli masz taką skłonność). Odpowiednie są również testy bootstrap.

Nienormalna (lub nieznana), nierówna wariancja (lub nieznany związek wariancji):

Jeśli rozkład jest ciężki, na ogół lepiej będzie z Mannem-Whitneyem - jeśli nierówność wariancji jest związana tylko z nierównością średniej - tj. Jeśli H0 jest prawdą, różnica w spreadie również powinna być nieobecna. GLM są często dobrą opcją, szczególnie jeśli występuje skośność, a rozpiętość jest związana ze średnią. Test permutacji to kolejna opcja, z podobnym zastrzeżeniem jak w przypadku testów opartych na rangach. Testy bootstrap są tutaj dobrą możliwością.

[1]

  • n umiarkowanie mały

testy rang są rozsądnymi wartościami domyślnymi, jeśli oczekujesz nienormalności (ponownie z powyższym zastrzeżeniem). Jeśli masz zewnętrzne informacje o kształcie lub wariancji, możesz rozważyć GLM. Jeśli oczekujesz, że rzeczy nie będą zbyt dalekie od normalnych, testy T mogą być w porządku.

  • n bardzo mały

[2]

Rada musi zostać nieco zmodyfikowana, gdy rozkłady są zarówno mocno wypaczone, jak i bardzo dyskretne, takie jak elementy w skali Likerta, w których większość obserwacji należy do jednej z końcowych kategorii. Zatem Wilcoxon-Mann-Whitney niekoniecznie jest lepszym wyborem niż test t.

Symulacja może pomóc w podjęciu dalszych decyzji, gdy masz pewne informacje o prawdopodobnych okolicznościach.

Rozumiem, że jest to odwieczny temat, ale większość pytań dotyczy konkretnego zestawu danych pytającego, czasem bardziej ogólnej dyskusji na temat mocy, a czasami co zrobić, jeśli dwa testy się nie zgadzają, ale chciałbym, aby procedura wybrała odpowiedni test w pierwsze miejsce!

Głównym problemem jest to, jak trudno jest sprawdzić założenie normalności w małym zestawie danych:

Trudno jest sprawdzić normalność w małym zbiorze danych, i do pewnego stopnia jest to ważna kwestia, ale myślę, że jest jeszcze jedna ważna kwestia, którą musimy rozważyć. Podstawowym problemem jest to, że próba oceny normalności jako podstawy wyboru między testami negatywnie wpływa na właściwości wybranych testów.

Każdy formalny test normalności miałby małą moc, więc naruszenia mogą nie zostać wykryte. (Osobiście nie testowałbym w tym celu i najwyraźniej nie jestem sam, ale znalazłem to niewielkie zastosowanie, gdy klienci żądają wykonania testu normalności, ponieważ to właśnie ich podręcznik lub stare notatki z wykładów lub strona internetowa, którą znaleźli raz deklaruj, że należy to zrobić. Jest to jeden punkt, w którym mile widziane byłoby cytowanie o większej wadze.)

[3]

Wybór między DR t- i WMW nie powinien opierać się na teście normalności.

Podobnie jednoznacznie nie testują równości wariancji.

Co gorsza, nie jest bezpieczne stosowanie Centralnego Twierdzenia Granicznego jako siatki bezpieczeństwa: dla małych n nie możemy polegać na wygodnej asymptotycznej normalności statystyki testowej i rozkładu t.

Nawet w dużych próbkach - asymptotyczna normalność licznika nie oznacza, że ​​t-statystyka będzie miała rozkład t. Może to jednak nie mieć większego znaczenia, ponieważ nadal powinieneś mieć asymptotyczną normalność (np. CLT dla licznika, a twierdzenie Slutsky'ego sugeruje, że w końcu statystyka t powinna zacząć wyglądać normalnie, jeśli warunki dla obu są ważne).

Jedną z zasadniczych odpowiedzi na to jest „przede wszystkim bezpieczeństwo”: ponieważ nie ma sposobu, aby wiarygodnie zweryfikować założenie normalności na małej próbce, zamiast tego uruchom równoważny test nieparametryczny.

To właściwie rada, o której wspominam (lub link do wzmianki).

Innym podejściem, które widziałem, ale czuję się mniej komfortowo, jest sprawdzenie wzrokowe i przejście do testu t, jeśli nic nie zostanie zaobserwowane („nie ma powodu, aby odrzucić normalność”, ignorując niską moc tego testu). Moją osobistą skłonnością jest rozważenie, czy istnieją podstawy do przyjęcia normalności, teoretycznej (np. Zmienna jest sumą kilku losowych składników i ma zastosowanie CLT) lub empirycznej (np. Wcześniejsze badania z większą n sugerują, że zmienna jest normalna).

Oba są dobrymi argumentami, szczególnie gdy są poparte faktem, że test t jest dość odporny na umiarkowane odchylenia od normalności. (Należy jednak pamiętać, że „umiarkowane odchylenia” to trudna fraza; pewne rodzaje odchyleń od normalności mogą dość wpłynąć na wydajność testu t, choć te odchylenia są wizualnie bardzo małe - t- test jest mniej odporny na niektóre odchylenia niż na inne. Powinniśmy o tym pamiętać, gdy mówimy o małych odchyleniach od normalności).

Uważaj jednak na sformułowanie „sugeruj, że zmienna jest normalna”. Zachowanie rozsądnej zgodności z normalnością nie jest tym samym, co normalność. Często możemy odrzucić faktyczną normalność, nawet nie widząc danych - na przykład, jeśli dane nie mogą być ujemne, rozkład nie może być normalny. Na szczęście ważne jest to, co faktycznie możemy mieć z poprzednich badań lub wnioskowania o tym, jak dane są skomponowane, co oznacza, że ​​odchylenia od normalności powinny być niewielkie.

Jeśli tak, skorzystałbym z testu t, jeśli dane przeszły kontrolę wizualną, a w przeciwnym razie trzymałbym się parametrów nieparametrycznych. Ale wszelkie podstawy teoretyczne lub empiryczne zwykle uzasadniają jedynie przyjęcie przybliżonej normalności, a przy niskich stopniach swobody trudno jest ocenić, jak blisko normalności musi być, aby uniknąć unieważnienia testu t.

Cóż, to jest coś, co możemy dość łatwo ocenić (na przykład za pomocą symulacji, jak wspomniałem wcześniej). Z tego, co widziałem, skośność wydaje się mieć większe znaczenie niż ciężkie ogony (ale z drugiej strony widziałem pewne twierdzenia przeciwne - chociaż nie wiem, na czym to opiera się).

Dla osób, które postrzegają wybór metod jako kompromis między mocą a solidnością, twierdzenia o asymptotycznej skuteczności metod nieparametrycznych są bezużyteczne. Na przykład ogólna zasada, że ​​„testy Wilcoxona mają około 95% mocy testu t, jeśli dane naprawdę są normalne, i często są znacznie mocniejsze, jeśli dane nie są, więc po prostu użyj Wilcoxona” jest czasami słyszałem, ale jeśli 95% dotyczy tylko dużej n, jest to błędne rozumowanie dla mniejszych próbek.


[2]

Po przeprowadzeniu takich symulacji w różnych okolicznościach, zarówno dla przypadków z dwiema próbkami, jak i z jedną próbą / różnicą par, wydajność małej próbki w normie w obu przypadkach wydaje się być nieco niższa niż wydajność asymptotyczna, ale wydajność podpisanej rangi, a testy Wilcoxona-Manna-Whitneya są nadal bardzo wysokie, nawet przy bardzo małych próbkach.

Przynajmniej tak jest, jeśli testy są wykonywane na tym samym rzeczywistym poziomie istotności; nie możesz zrobić testu 5% z bardzo małymi próbkami (a przynajmniej nie bez testów losowych), ale jeśli jesteś przygotowany na wykonanie (powiedzmy) testu 5,5% lub 3,2%, to testy rangowe wytrzymują bardzo dobrze w porównaniu z testem t na tym poziomie istotności.

Małe próbki mogą bardzo utrudnić lub uniemożliwić ocenę, czy transformacja jest odpowiednia dla danych, ponieważ trudno jest stwierdzić, czy transformowane dane należą do (wystarczająco) normalnego rozkładu. Więc jeśli wykres QQ ujawnia bardzo pozytywnie wypaczone dane, które wyglądają bardziej rozsądnie po zapisaniu logów, czy bezpiecznie jest zastosować test t na zarejestrowanych danych? W przypadku większych próbek byłoby to bardzo kuszące, ale przy małej n prawdopodobnie powstrzymałbym się, chyba że istniałyby podstawy, by spodziewać się rozkładu logarytmiczno-normalnego.

Jest jeszcze jedna alternatywa: przyjąć inne parametryczne założenie. Na przykład, jeśli istnieją wypaczone dane, można na przykład w niektórych sytuacjach rozsądnie rozważyć rozkład gamma lub inną wypaczoną rodzinę jako lepsze przybliżenie - w umiarkowanie dużych próbkach możemy po prostu użyć GLM, ale w bardzo małych próbkach konieczne może być sprawdzenie testu na małej próbce - w wielu przypadkach symulacja może być przydatna.

Alternatywa 2: udoskonalenie testu t (ale dbanie o wybór solidnej procedury, aby nie dyskretnie wynikać z rozkładu wynikowego statystyki testowej) - ma to pewne zalety w porównaniu z procedurą nieparametryczną bardzo małej próby, taką jak zdolność rozważyć testy z niskim poziomem błędu typu I.

Tutaj myślę zgodnie z linijką wykorzystania powiedzmy M-estymatorów położenia (i powiązanych estymatorów skali) w statystyce t do płynnego oparcia się na odchyleniach od normalności. Coś podobnego do Welcha, na przykład:

xySp

Sp2=sx2nx+sy2nyxsx

ψn

Można na przykład użyć normalnej symulacji, aby uzyskać wartości p (jeśli rozmiary próbek są bardzo małe, sugerowałbym, że przy ładowaniu początkowym - jeśli rozmiary próbek nie są tak małe, starannie wdrożony bootstrap może całkiem dobrze , ale równie dobrze możemy wrócić do Wilcoxon-Mann-Whitney). Istnieje współczynnik skalowania, a także korekta df, aby uzyskać to, co według mnie byłoby rozsądnym przybliżeniem t. Oznacza to, że powinniśmy uzyskać właściwości, których szukamy, bardzo zbliżone do normalnych i powinniśmy mieć rozsądną odporność w szerokim sąsiedztwie normalnej. Pojawia się wiele problemów, które wykraczałyby poza zakres niniejszego pytania, ale myślę, że w bardzo małych próbach korzyści powinny przewyższać koszty i wymagany dodatkowy wysiłek.

[Nie czytałem literatury na ten temat od bardzo dawna, więc nie mam odpowiednich odniesień do zaoferowania tego zapisu.]

Oczywiście, jeśli nie spodziewałeś się, że rozkład będzie nieco podobny do normalnego, ale raczej podobny do jakiegoś innego rozkładu, możesz podjąć odpowiednie udoskonalenie innego testu parametrycznego.

Co jeśli chcesz sprawdzić założenia dotyczące nieparametrycznych? Niektóre źródła zalecają weryfikację rozkładu symetrycznego przed zastosowaniem testu Wilcoxona, który powoduje podobne problemy jak sprawdzanie normalności.

W rzeczy samej. Zakładam, że masz na myśli podpisany test rangowy *. W przypadku użycia go na sparowanych danych, jeśli jesteś przygotowany na założenie, że dwie dystrybucje mają ten sam kształt oprócz przesunięcia lokalizacji, jesteś bezpieczny, ponieważ różnice powinny być symetryczne. W rzeczywistości nie potrzebujemy nawet tyle; aby test zadziałał, potrzebujesz symetrii pod wartością zerową; nie jest to wymagane w ramach alternatywy (np. weźmy pod uwagę sytuację w parach z identycznie ukształtowanymi prawymi skośnymi ciągłymi rozkładami na dodatniej połowie linii, gdzie skale różnią się w ramach alternatywy, ale nie poniżej zera; podpisany test rang powinien działać zasadniczo zgodnie z oczekiwaniami w ta walizka). Interpretacja testu jest łatwiejsza, jeśli alternatywą jest zmiana lokalizacji.

* (Nazwa Wilcoxona jest powiązana zarówno z jednym, jak i dwoma próbnymi testami rang - podpisana ranga i suma rang; wraz z testem U Mann i Whitney uogólnili sytuację badaną przez Wilcoxona i wprowadzili ważne nowe pomysły dotyczące oceny rozkładu zerowego, ale priorytetem między dwoma zbiorami autorów Wilcoxona-Manna-Whitneya jest oczywiście Wilcoxon - więc przynajmniej jeśli weźmiemy pod uwagę Wilcoxon kontra Mann i Whitney, Wilcoxon zajmuje pierwsze miejsce w mojej książce, jednak wydaje się, że prawo Stiglera bije mnie jeszcze raz, a Wilcoxon być może powinien podzielić część tego priorytetu z wieloma wcześniejszymi autorami i (oprócz Manna i Whitneya) powinien podzielić się uznaniem z kilkoma odkrywcami równoważnego testu. [4] [5])

Bibliografia

[1]: Zimmerman DW i Zumbo BN, (1993),
Transformacje rang i moc testu t Studenta i testu t Welcha dla populacji nienormalnych,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
„Korzystanie z testu t-Studenta przy bardzo małych próbkach”, „
Ocena praktyczna, badania i ocena” , 18 : 10, sierpień, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay i Michael A. Proschan (2010),
„Wilcoxon-Mann-Whitney czy test t? Na podstawie założeń do testów hipotez i wielu interpretacji reguł decyzyjnych”,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW i Johnston, JE (2012),
„ Dwupróbkowy test sumy rang: Wczesny rozwój”,
Electronic Journal for History of Probability and Statistics , Vol. 8, grudzień
pdf

[5]: Kruskal, WH (1957),
„Notatki historyczne dotyczące niesparowanego testu dwóch próbek Wilcoxona”,
Journal of the American Statistics Association , 52 , 356–360.

Glen_b
źródło
Chciałbym wyjaśnić kilka rzeczy. Jest kilka punktów, w których wspominasz np. „Jeśli rozkład jest ciężki, ...” (lub przekrzywiony itp.) - prawdopodobnie należy to rozumieć jako „jeśli rozsądne jest założenie, że rozkład będzie ciężki” (z teorii / poprzednie badania / cokolwiek) zamiast „jeśli próbka jest gruboogoniasta”, w przeciwnym razie ponownie wrócimy do testów wieloetapowych, czego właśnie staramy się unikać? (Wydaje mi się, że centralną kwestią w tym temacie jest uzasadnienie przekonań lub założeń dotyczących dystrybucji, bez odczytywania zbyt dużej liczby próbek).
Silverfish,
Tak, należy to rozumieć jako „wiadomo, że populacja jest gruboogoniasta, lub można zasadnie oczekiwać, że będzie gruboogoniasta”. Obejmuje to z pewnością takie rzeczy jak teoria (a czasem nawet ogólne rozumowanie sytuacji, która nie do końca osiąga status teorii ), wiedza ekspercka i wcześniejsze badania. To nie sugeruje testowania pod kątem ogona. W sytuacjach, w których jest to po prostu nieznane, warto zbadać, jak złe rzeczy mogą występować w różnych dystrybucjach, które mogą być prawdopodobne w konkretnej sytuacji.
Glen_b
Czy jest jakaś szansa, że ​​ta i tak już doskonała odpowiedź może zawierać nieco więcej szczegółów na temat możliwych opcji „usprawnienia” testu t?
Silverfish,
Rybik - nie jestem pewien, czy w wystarczającym stopniu odpowiedziałem na twoje pytanie, prosząc o szczegółowe informacje na temat robustify. Dodam teraz trochę więcej.
Glen_b
Wielkie dzięki za dodanie, myślałem, że to znacznie podniosło jakość tej odpowiedzi. Teraz to pytanie nieco się uspokoiło i wygenerowało dobry zestaw odpowiedzi, chciałbym nadać oryginalnemu pytaniu dobrą kopię do edycji i usunąć wszystko, co może wprowadzać w błąd (na korzyść czytelników, którzy nie czytają przeszłości) pytanie!). Czy mogę to zrobić, aby wprowadzić odpowiednie zmiany w odpowiedzi, aby cytaty były zgodne z reorganizowanym pytaniem?
Silverfish,
22

YktP

Podsumowując, niektóre sugerowane wskazówki są następujące:

  1. Jeśli nie ma ważnego powodu, aby założyć rozkład Gaussa przed badaniem danych, i nie jest konieczne dostosowanie współzmiennej, należy zastosować test nieparametryczny.
  2. Jeśli konieczne jest dostosowanie współzmiennej, użyj uogólnionej regresji półparametrycznej testu rangi, który preferujesz. W przypadku testu Wilcoxona jest to model proporcjonalnych szans, a dla normalnego testu wyników jest to regresja porządkowa probit.

t3πY

kklogloglink porządkowy model porządkowy prawdopodobieństwa zakłada się, że rozkłady są proporcjonalne do zagrożeń. W przypadku modelu skumulowanego prawdopodobieństwa łącza logit (model proporcjonalnego prawdopodobieństwa) zakłada się, że rozkłady są połączone przez założenia proporcjonalnego prawdopodobieństwa, tj. Logarytm funkcji skumulowanego rozkładu jest równoległy. Kształt jednego z rozkładów jest nieistotny. Szczegóły można znaleźć w http://biostat.mc.vanderbilt.edu/CourseBios330 w rozdziale 15 materiałów informacyjnych.

Istnieją dwa rodzaje założeń częstej metody statystycznej, które są często brane pod uwagę. Pierwszym z nich są założenia wymagane do tego, aby metoda zachowała błąd typu I. Drugi dotyczy zachowania błędu typu II (optymalność; czułość). Uważam, że najlepszym sposobem na ujawnienie założeń potrzebnych do drugiego jest osadzenie testu nieparametrycznego w modelu semiparametrycznym, jak opisano powyżej. Rzeczywiste połączenie między nimi pochodzi z efektywnych testów punktowych Rao wynikających z modelu półparametrycznego. Licznikiem testu punktowego z modelu proporcjonalnych szans dla przypadku dwóch prób jest dokładnie statystyka suma rang.

Frank Harrell
źródło
1
Dzięki za to bardzo popieram filozofię tej odpowiedzi - na przykład wiele źródeł sugeruje, że powinienem przynajmniej sprawdzić dane pod kątem normalności przed podjęciem decyzji o teście. Ale ten rodzaj procedury wieloetapowej wyraźnie, choć subtelnie, wpływa na działanie testów.
Silverfish,
1
nn=15
3
10000p
4
Testy permutacyjne są sposobami kontrolowania błędu typu I, ale nie dotyczą błędu typu II. Test permutacji oparty na nieoptymalnych statystykach (np. Zwykłej średniej i wariancji, gdy dane pochodzą z rozkładu log-Gaussa) będzie cierpiał pod względem mocy.
Frank Harrell,
3
Tak. Rozdział 15 materiałów informacyjnych został rozszerzony do nowego rozdziału w nadchodzącym drugim wydaniu mojej książki, który prześlę do wydawcy w przyszłym miesiącu.
Frank Harrell,
13

Rand Wilcox w swoich publikacjach i książkach podaje kilka bardzo ważnych punktów, z których wiele zostało wymienionych przez Franka Harrella i Glen_b we wcześniejszych postach.

  1. Średnia niekoniecznie oznacza ilość, o której chcemy wnioskować. Być może istnieją inne wielkości, które lepiej stanowią przykład typowej obserwacji.
  2. W przypadku testów t moc może być niska, nawet w przypadku małych odstępstw od normalności.
  3. W przypadku testów t zaobserwowane pokrycie prawdopodobieństwa może znacznie różnić się od wartości nominalnej.

Niektóre kluczowe sugestie to:

  1. Solidną alternatywą jest porównanie przyciętych średnich lub estymatorów M za pomocą testu t. Wilcox sugeruje 20% przycięte środki.
  2. Metody prawdopodobieństwa empirycznego są teoretycznie bardziej korzystne ( Owen, 2001 ), ale niekoniecznie tak dla średnich i małych n.
  3. Testy permutacyjne są świetne, jeśli trzeba kontrolować błąd typu I, ale nie można uzyskać CI.
  4. W wielu sytuacjach Wilcox proponuje bootstrap-t, aby porównać przycięte środki. W R jest to zaimplementowane w funkcjach yuenbt , yhbt w pakiecie WRS .
  5. Percentylowy bootstrap może być lepszy niż percentyl-t, gdy ilość przycinania wynosi> / = 20%. W R jest to zaimplementowane w funkcji pb2gen we wspomnianym pakiecie WRS .

Dwa dobre referencje to Wilcox ( 2010 ) i Wilcox ( 2012 ).

Thomas Speidel
źródło
8

Bradley w swojej pracy Testy statystyczne bez dystrybucji (1968, s. 17–24) przedstawia trzynaście kontrastów między tym, co nazywa testem „klasycznym”, a testem „bez dystrybucji”. Pamiętaj, że Bradley rozróżnia „nieparametryczny” i „bez dystrybucji”, ale dla celów twojego pytania ta różnica nie jest istotna. Do tych trzynastu należą elementy, które odnoszą się nie tylko do pochodnych testów, ale ich zastosowań. Obejmują one:

  • Wybór poziomu istotności: testy klasyczne mają ciągłe poziomy istotności; testy bez dystrybucji zwykle zawierają dyskretne obserwacje poziomów istotności, więc klasyczne testy oferują większą elastyczność w ustalaniu tego poziomu.
  • Logiczna ważność regionu odrzucenia: regiony odrzucenia testu wolnego od dystrybucji mogą być mniej intuicyjnie zrozumiałe (niekoniecznie gładkie ani ciągłe) i mogą powodować zamieszanie co do tego, kiedy należy uznać, że test odrzucił hipotezę zerową.
  • Rodzaj statystyk, które można przetestować: cytując bezpośrednio Bradleya: „ Statystyki zdefiniowane jako operacje arytmetyczne na podstawie wielkości obserwacji mogą być testowane za pomocą klasycznych technik, które można zdefiniować na podstawie zależności między rzędami (ranga) lub częstotliwości kategorii itp. Przez metody bez dystrybucji. Środki i wariancje są przykładami pierwszej i median oraz przedziałów międzykwartylowych drugiej. „Zwłaszcza w przypadku rozkładów nienormalnych wartość umiejętności testowania innych statystyk staje się cenna, nadając wagę testom bez dystrybucji .
  • Testowalność interakcji wyższego rzędu: w klasycznych testach jest znacznie łatwiej niż w przypadku testów bez dystrybucji.
  • Wpływ wielkości próby:Moim zdaniem jest to dość ważne. Gdy rozmiary próbek są małe (Bradley mówi około n = 10), ustalenie, czy założenia parametryczne leżące u podstaw klasycznych testów zostały naruszone, może być bardzo trudne. W testach wolnych od dystrybucji nie można naruszyć tych założeń. Co więcej, nawet jeśli założenia nie zostały naruszone, testy bez dystrybucji są często prawie tak samo łatwe do zastosowania i prawie tak samo skuteczne jak testy. Tak więc w przypadku małych próbek (mniej niż 10, możliwe do 30) Bradley preferuje prawie rutynowe stosowanie testów bez dystrybucji. W przypadku dużych wielkości próby centralne twierdzenie graniczne ma tendencję do przytłaczania naruszeń parametrycznych, ponieważ średnia próbki i jej wariancja będą miały tendencję do normy, a testy parametryczne mogą być lepsze pod względem skuteczności.
  • Zakres zastosowania: Ponieważ testy są wolne od dystrybucji, takie testy mają zastosowanie do znacznie większej klasy populacji niż klasyczne testy zakładające określoną dystrybucję.
  • Wykrywalność naruszenia założenia ciągłego rozkładu: Łatwo dostrzegalne w testach bez dystrybucji (np. Istnienie powiązanych wyników), trudniejsze w testach parametrycznych.
  • Skutek naruszenia założenia ciągłego rozkładu: w przypadku naruszenia założenia test staje się niedokładny. Bradley spędza czas na wyjaśnianiu, w jaki sposób można oszacować granice niedokładności dla testów bez dystrybucji, ale nie ma analogicznej rutyny dla testów klasycznych.
Avraham
źródło
1
Dziękuję za cytowanie! Praca Bradleya wydaje się dość stara, więc podejrzewam, że nie ma ona wiele pracy nad nowoczesnymi badaniami symulacyjnymi w celu porównania wydajności i poziomów błędów Typu I / II w różnych scenariuszach? Byłbym również zainteresowany tym, co on sugeruje na temat testów Brunnera-Munzela - czy należy je stosować zamiast testu U, jeśli nie wiadomo, że wariancje w obu grupach są równe?
Silverfish,
1
Bradley dyskutuje o wydajnościach, chociaż przez większość czasu dzieje się to w kontekście asymptotycznej wydajności względnej. Czasami przynosi źródła oświadczeń o skończonej wielkości próby, ale ponieważ praca pochodzi z 1968 roku, jestem pewien, że od tego czasu przeprowadzono znacznie lepsze analizy. Mówiąc o tym, jeśli mam rację, Brunner i Munzel napisali swój artykuł w 2000 roku , co wyjaśnia, dlaczego nie ma o nim wzmianki w Bradley.
Avraham
Tak, to by wyjaśniało! :) Czy wiesz, czy istnieje bardziej aktualna ankieta niż Bradley?
Silverfish,
Krótkie wyszukiwanie pokazuje, że istnieje wiele najnowszych tekstów dotyczących statystyki nieparametrycznej. Na przykład: nieparametryczne metody statystyczne (Hollander i in., 2013), nieparametryczne testowanie hipotez: metody rangowe i permutacyjne z zastosowaniami w R (Bonnini i in., 2014), nieparametryczne wnioskowanie statystyczne, wydanie piąte (Gibbons i Chakraborti, 2010). Istnieje wiele innych, które pojawiają się w różnych wyszukiwaniach. Ponieważ nie mam żadnych, nie mogę wydawać żadnych zaleceń. Przepraszam.
Avraham,
5

Zaczynam odpowiadać na to bardzo interesujące pytanie.

W przypadku niesparowanych danych:

Wykonanie pięciu dwu-próbnych testów lokalizacji dla wypaczonych rozkładów z nierównymi wariancjami przez Mortena W. Fagerlanda, Leiv Sandvik (za paywall) przeprowadza serię eksperymentów z 5 różnymi testami (test t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney i Brunner-Munzel) dla różnych kombinacji wielkości próby, proporcji próbki, odstępstwa od normalności i tak dalej. Artykuł ostatecznie sugeruje, że Welch U w ogóle,

Ale w dodatku A artykułu wymieniono wyniki dla każdej kombinacji wielkości próbek. A dla małych rozmiarów próbek (m = 10 n = 10 lub 25) wyniki są bardziej mylące (zgodnie z oczekiwaniami) - w mojej ocenie wyników (nie autorów) Welch U, Brunner-Munzel wydaje się równie dobrze, a Test t także dobrze w przypadku m = 10 in = 10.

To wiem do tej pory.

Dla „szybkiego” rozwiązania cytowałem zwiększenie świadomości lekarzy na temat wpływu statystyki na wyniki badań: moc porównawcza testu t i testu sumy rang Wilcoxona w badaniach małych próbek przez Patricka D Bridge i Shlomo S. Sawilowsky'ego (także za paywallem) i przejdź bezpośrednio do Wilcoxona bez względu na wielkość próbki, ale na przykład emptor z zastrzeżeniem. Czy zawsze powinniśmy wybierać test nieparametryczny, porównując dwa pozornie nietypowe rozkłady? autorzy: Eva Skovlund i Grete U. Fensta .

Nie znalazłem jeszcze podobnych wyników dla sparowanych danych

Jacques Wainer
źródło
Doceniam cytaty! Dla wyjaśnienia, przywoływany jest „Welch U”, ten sam test znany również jako „Welch t” lub „Welch-Aspin t” lub (jak to chyba niewłaściwie nazwałem w pytaniu) „t test z korektą Welcha” ?
Silverfish,
O ile rozumiem z pracy, Welch U nie jest zwykłym Welch-Aspin - nie używa równania Welch-Satterthwaite dla stopni swobody, ale wzór, który ma różnicę między sześcianem a kwadratem próbki rozmiar.
Jacques Wainer
Czy mimo to nadal jest to test t? Wszędzie, gdzie szukam „Welch U”, wydaje mi się, że odnosi się to do Welch-Aspin, co jest frustrujące.
Silverfish,
1

Symulowanie różnicy średnich populacji gamma

Porównanie testu t i testu Manna Whitneya

Podsumowanie rezultatów

  • Gdy wariancja dwóch populacji jest taka sama, test Manna Whitneya ma większą moc rzeczywistą, ale także większy błąd typu 1 niż test t.
  • H0
  • Gdy wariancja dwóch populacji jest inna, test Manna Whitneya prowadzi do dużego błędu typu 1, nawet gdy średnie są takie same. Jest to oczekiwane, ponieważ testy Manna Whitneya pod kątem różnic w rozkładach, a nie w środkach.
  • Test t jest odporny na różnice w wariancji, ale identyczne środki

Eksperyment 1) Różne środki, ta sama wariancja

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Źródła:

Rozkłady ludności

wprowadź opis zdjęcia tutaj

Wyniki symulacji

wprowadź opis zdjęcia tutaj

Dyskusja

  • N=10
  • Dla wszystkich wielkości próbek test Manna Whitneya ma większą moc niż test t, a w niektórych przypadkach współczynnik 2
  • Dla wszystkich wielkości próbek test Manna Whitneya ma większy błąd typu I, a to dwukrotnie lub 2-3
  • Test t ma niską moc dla małej wielkości próbki

Dyskusja : gdy wariancja dwóch populacji jest rzeczywiście taka sama, test Manna Whitneya znacznie przewyższa test t pod względem mocy dla małej wielkości próby, ale ma wyższy poziom błędu typu 1


Eksperyment 2: Różne wariancje, ta sama średnia

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Dyskusja Wyniki symulacji pokazują, że test t jest bardzo odporny na różne wariancje, a błąd typu I jest bliski 5% dla wszystkich rozmiarów próbek. Zgodnie z oczekiwaniami test Manna Whitneya działa słabo w tym przypadku, ponieważ nie sprawdza on różnicy średnich, ale różnic w rozkładach

wprowadź opis zdjęcia tutaj

Xavier Bourret Sicotte
źródło