To jest kolejne pytanie do tego, co napisał tutaj Frank Harrell :
Z mojego doświadczenia wynika, że wymagany rozmiar próbki, aby rozkład t był dokładny, jest często większy niż rozmiar próbki pod ręką. Test rangowanych znaków Wilcoxona jest niezwykle wydajny, jak powiedziałeś, i jest solidny, więc prawie zawsze wolę go od testu t
Jeśli dobrze to rozumiem - porównując lokalizację dwóch niedopasowanych próbek, wolelibyśmy zastosować test sumy rang Wilcoxona zamiast niesparowanego testu t, jeśli nasze próbki są małe.
Czy istnieje teoretyczna sytuacja, w której wolelibyśmy test sumy rang Wilcoxona niż niesparowany test t, nawet jeśli wielkości próbek w naszych dwóch grupach są stosunkowo duże?
Moja motywacja do tego pytania wynika z obserwacji, że w przypadku testu t dla pojedynczej próbki użycie go do niezbyt małej próbki o przekrzywionym rozkładzie da błąd typu I:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error
źródło
Odpowiedzi:
Tak jest. Na przykład dowolne próbkowanie z rozkładów z nieskończoną wariancją zniszczy test t, ale nie Wilcoxona. Odnosząc się do nieparametrycznych metod statystycznych (Hollander i Wolfe), widzę, że asymptotyczna wydajność względna (ARE) Wilcoxona względem testu t wynosi 1,0 dla rozkładu jednolitego, 1,097 (tj. Wilcoxon jest lepszy) dla logistyki, 1,5 dla podwójny wykładniczy (Laplace) i 3.0 dla wykładniczego.
Hodges i Lehmann wykazali, że minimalne ARE Wilcoxona w stosunku do każdego innego testu wynosi 0,864, więc nigdy nie można stracić więcej niż około 14% wydajności, używając go w stosunku do czegokolwiek innego. (Oczywiście jest to wynik asymptotyczny). W związku z tym użycie Wilcoxona przez Franka Harrella jako domyślnego powinno prawdopodobnie zostać przyjęte przez prawie wszystkich, w tym przeze mnie.
Edycja: Odpowiadając na pytanie uzupełniające w komentarzach, dla tych, którzy wolą przedziały ufności, estymator Hodgesa-Lehmanna jest estymatorem, który „odpowiada” testowi Wilcoxona, i wokół tego można budować przedziały ufności.
źródło
Pozwól, że wrócę do naszej dyskusji w komentarzach do tego pytania. Test sumy rang Wilcoxona jest równoważny testowi U Manna-Whitneya (a jego bezpośrednie rozszerzenie dla więcej niż dwóch próbek nazywa się testem Kruskala-Wallisa). W Wikipedii oraz w tym tekście można zobaczyć, że Mann-Whitney (lub Kruskal-Wallis) na ogół nie porównuje środków ani median. Porównuje ogólną częstość występowania wartości: która z próbek jest „stochastycznie większa”. Test nie obejmuje dystrybucji. Test T porównuje średnie. Zakłada normalny rozkład. Testy biorą udział w różnych hipotezach. W większości przypadków nie planujemy dokładnie porównywać średnich, chcemy raczej wiedzieć, która próbka jest większa pod względem wartości, i sprawia, że Mann-Whitney jest dla nas domyślnym testem. Z drugiej strony, gdy oba rozkłady są symetryczne, zadanie sprawdzenia, czy jedna próbka jest „większa” niż druga degeneruje się do zadania porównania dwóch średnich, a następnie, jeśli rozkłady są normalne przy równych wariancjach, test t staje się nieco mocniejszy.
źródło