Kiedy stosować test sumy rang Wilcoxona zamiast niesparowanego testu t?

26

To jest kolejne pytanie do tego, co napisał tutaj Frank Harrell :

Z mojego doświadczenia wynika, że ​​wymagany rozmiar próbki, aby rozkład t był dokładny, jest często większy niż rozmiar próbki pod ręką. Test rangowanych znaków Wilcoxona jest niezwykle wydajny, jak powiedziałeś, i jest solidny, więc prawie zawsze wolę go od testu t

Jeśli dobrze to rozumiem - porównując lokalizację dwóch niedopasowanych próbek, wolelibyśmy zastosować test sumy rang Wilcoxona zamiast niesparowanego testu t, jeśli nasze próbki są małe.

Czy istnieje teoretyczna sytuacja, w której wolelibyśmy test sumy rang Wilcoxona niż niesparowany test t, nawet jeśli wielkości próbek w naszych dwóch grupach są stosunkowo duże?

Moja motywacja do tego pytania wynika z obserwacji, że w przypadku testu t dla pojedynczej próbki użycie go do niezbyt małej próbki o przekrzywionym rozkładzie da błąd typu I:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error
Tal Galili
źródło
1
Dla mnie 0,0572 wydaje się wystarczająco zbliżony do 0,05.
mark999
Cześć Mark - przy przeprowadzeniu poniżej 100000 powtórzeń hipotezy zerowej nie oczekujemy tego poziomu różnicy od 0,05. Generalnie spodziewalibyśmy się różnicy plus minus coś jak dwa razy sqrt (0,05 * 0,95 / 100000) od 0,05
Tal Galili
1
Zgadzam się, że to nieprawda. Miałem tylko na myśli, że wydaje się wystarczająco blisko do celów praktycznych.
mark999
1
Powiązane pytanie: jak wybrać między testem t lub testem nieparametrycznym, np. Wilcoxon w małych próbkach , który uwzględnia zarówno testy sparowane, jak i niesparowane, a także alternatywy dla Wilcoxona, takie jak Brunner-Munzel. Istnieje również doskonała odpowiedź Franka Harrella, która wyjaśnia, dlaczego jego podejście jest uzasadnione bardziej szczegółowo niż powyższy wyciąg (np. Znaczenie niezmienności szeregów w transformacji monotonicznej).
Silverfish,
@TalGalili: dlaczego nie miałbyś oczekiwać takiego poziomu różnicy, biorąc pod uwagę, że wykonujesz test t, a założenie normalności zostało naruszone (widzę, że twoja próbka jest wykładniczo rozłożona)? Pytam tutaj z perspektywy nowicjusza. Próbuję po prostu zrozumieć, czego się spodziewamy, wykonując test próbki t, gdy naruszone jest założenie normalności. Dlaczego średni błąd typu I powinien być mniejszy niż 5%, większy niż 5% lub cokolwiek innego? Z mojego punktu widzenia to, co testujemy, to a rozkład jest normalny. H.0:μ=50
Erosennin

Odpowiedzi:

23

Tak jest. Na przykład dowolne próbkowanie z rozkładów z nieskończoną wariancją zniszczy test t, ale nie Wilcoxona. Odnosząc się do nieparametrycznych metod statystycznych (Hollander i Wolfe), widzę, że asymptotyczna wydajność względna (ARE) Wilcoxona względem testu t wynosi 1,0 dla rozkładu jednolitego, 1,097 (tj. Wilcoxon jest lepszy) dla logistyki, 1,5 dla podwójny wykładniczy (Laplace) i 3.0 dla wykładniczego.

Hodges i Lehmann wykazali, że minimalne ARE Wilcoxona w stosunku do każdego innego testu wynosi 0,864, więc nigdy nie można stracić więcej niż około 14% wydajności, używając go w stosunku do czegokolwiek innego. (Oczywiście jest to wynik asymptotyczny). W związku z tym użycie Wilcoxona przez Franka Harrella jako domyślnego powinno prawdopodobnie zostać przyjęte przez prawie wszystkich, w tym przeze mnie.

Edycja: Odpowiadając na pytanie uzupełniające w komentarzach, dla tych, którzy wolą przedziały ufności, estymator Hodgesa-Lehmanna jest estymatorem, który „odpowiada” testowi Wilcoxona, i wokół tego można budować przedziały ufności.

łucznik
źródło
1
Czy istnieje prosty sposób na uzyskanie przedziału ufności, jeśli stosuje się test Wilcoxona? Wydaje się, że zachęca to ludzi do zbytniego podkreślania wartości p, nawet bardziej niż w przypadku metody parametrycznej.
mark999
Tak, estymator Hodgesa-Lehmanna jest odpowiednim estymatorem, a ja zredagowałem treść odpowiedzi, aby przyszli czytelnicy nie musieli przeglądać komentarzy.
jbowman,
Dzięki, łuczniku. Nie znam estymatora Hodgesa-Lehmanna, ale zobaczę, co mogę o nim dowiedzieć.
mark999
3
biostat.mc.vanderbilt.edu/WilcoxonSoftware pokazuje, jak używać R, aby uzyskać oszacowanie Hodgesa-Lehmanna i jego przedział ufności.
Frank Harrell,
1
(+1) od masywnego tradycjonalistycznego przeciwnika rangi. Jednak wyzwaniem dla testów rangowych jest to, że hipoteza jest niejasna. Zasadniczo nie jest to ta sama hipoteza, co test t. Test t zawsze sprawdza średnią różnicę, Wilcoxon testuje średnią ważoną różnicę rang. Oczywiście, jeśli różnica między średnimi rangami jest istotna statystycznie, wiemy, że rozkłady muszą się różnić, nawet jeśli ich średnie są takie same. Żaden test nie jest w stanie wykryć różnic dystrybucyjnych we wszystkich przypadkach. Mówię tylko tyle, ponieważ sprzyjam interpretacji. (1/2)
AdamO
24

Pozwól, że wrócę do naszej dyskusji w komentarzach do tego pytania. Test sumy rang Wilcoxona jest równoważny testowi U Manna-Whitneya (a jego bezpośrednie rozszerzenie dla więcej niż dwóch próbek nazywa się testem Kruskala-Wallisa). W Wikipedii oraz w tym tekście można zobaczyć, że Mann-Whitney (lub Kruskal-Wallis) na ogół nie porównuje środków ani median. Porównuje ogólną częstość występowania wartości: która z próbek jest „stochastycznie większa”. Test nie obejmuje dystrybucji. Test T porównuje średnie. Zakłada normalny rozkład. Testy biorą udział w różnych hipotezach. W większości przypadków nie planujemy dokładnie porównywać średnich, chcemy raczej wiedzieć, która próbka jest większa pod względem wartości, i sprawia, że ​​Mann-Whitney jest dla nas domyślnym testem. Z drugiej strony, gdy oba rozkłady są symetryczne, zadanie sprawdzenia, czy jedna próbka jest „większa” niż druga degeneruje się do zadania porównania dwóch średnich, a następnie, jeśli rozkłady są normalne przy równych wariancjach, test t staje się nieco mocniejszy.

ttnphns
źródło
+1 za przywiązanie odpowiedzi do znaczenia testowanych hipotez.
Josh Hemann,
Przez „która z próbek jest„ stochastycznie większa ”” masz na myśli „która z nich na ogół przyjmuje większe wartości w porównaniu do innych”? Jeśli nie, co masz na myśli? Czy mógłbyś bardziej szczegółowo to rozwinąć?
Erdogan CEVHER
1
@Erdogan, tak, możemy powiedzieć tak jak powiedziałeś. Ścisłe sformułowanie jest następujące: w losowo wybranej parze obiektów, po jednym z każdej próbki, obiekt z próbki „stochastycznie bardziej dominującej” będzie wyższy (pod względem wartości) niż obiekt z drugiej próbki z prawdopodobieństwem> 0,5.
ttnphns