Czy można przeprowadzić analizę mocy dla testu U Kruskala-Wallisa i Manna-Whitneya? Jeśli tak, czy są jakieś pakiety / funkcje R, które je wykonują?
r
nonparametric
power-analysis
kruskal-wallis
Giorgio Spedicato
źródło
źródło
Odpowiedzi:
Z pewnością można obliczyć moc.
Mówiąc ściślej - jeśli podejmiesz wystarczające założenia, aby uzyskać sytuację, w której możesz obliczyć (w pewien sposób) prawdopodobieństwo odrzucenia, możesz obliczyć moc.
W Wilcoxon-Mann-Whitney, jeśli (na przykład) przyjmiesz kształty rozkładu (przyjmij założenie o postaci (-ach) dystrybucji) i przyjmij pewne założenia dotyczące skal (spreadów) i określonych wartości lokalizacji lub różnicy lokalizacji , możesz być w stanie obliczyć moc algebraicznie lub za pomocą integracji numerycznej; w przeciwnym razie można zasymulować współczynnik odrzucenia.
Na przykład, jeśli założymy próbkowanie z rozkładów z określoną różnicą lokalizacji (znormalizowaną dla wspólnej skali), to biorąc pod uwagę rozmiary próbek, moglibyśmy zasymulować wiele zestawów danych spełniających wszystkie te warunki i w ten sposób uzyskać oszacowanie współczynnika odrzucenia. Załóżmy więc, że mamy dwie próbki rozkładów (rodzina skali lokalizacji) ze skalą jednostki ( ) - bez utraty ogólności - i z różnicą lokalizacji . Ponownie, bez utraty ogólności, moglibyśmy wziąć . Następnie dla określonej wielkości próbki - (powiedzmy) - możemy symulować obserwacje, a tym samym moc dla tej konkretnej wartościt5 t5 σ=1 δ=μ2−μ1=1 μ1=0 n1=6,n2=9 δ/σ (tj. ). Oto szybki przykład w R:1
Trzy takie symulacje dały wskaźniki odrzucenia wynoszące 0,321, 0,321 i 0,316; moc jest najwyraźniej w okolicach 0,32 (można obliczyć przedział ufności na podstawie tylko jednej z tych symulacji, ponieważ liczba odrzuceń jest dwumianowa ). W praktyce zwykle używam większych symulacji, ale jeśli symulujesz wiele różnych lub , możesz nie chcieć przekraczać liczby 10000 symulacji dla każdej z nich.n δ
Robiąc to dla wielu wartości przesunięcia lokalizacji, można nawet uzyskać krzywą mocy dla tego zestawu okoliczności, ponieważ zmiana lokalizacji zmienia się, jeśli chcesz.
W dużych próbkach podwojenie i będzie przypominało zmniejszenie o połowę (a więc zwiększenie przy danej ), więc często można uzyskać dobre przybliżenia przy różnych podstawie symulacji przy zaledwie kilku wartościach. Podobnie, w przypadku testów jednostronnych, jeśli jest wskaźnikiem odrzucenia przy to ma tendencję do zbliżania się do liniowego in (ponownie, umożliwiając dobre przybliżenie przy różnych wartościach z symulacji przy tylko kilku wartościachn1 n2 σ2 δ/σ δ n n 1−bi δ=δi Φ−1(1−b) δ δ δ (tuzin dobrze dobranych wartości to często mnóstwo). Rozsądne wybory wygładzania często dają nadzwyczaj dobre przybliżenie mocy przy innych wartościach lub .n δ
Oczywiście nie musisz ograniczać się do zmiany lokalizacji. Każda zmiana parametrów, która mogłaby prowadzić do zmiany będzie czymś, co można zbadać.P(Y2>Y1)
Należy zauważyć, że chociaż testy te są wolne od dystrybucji (dla ciągłych dystrybucji) poniżej wartości zerowej, zachowanie jest inne przy różnych założeniach dystrybucyjnych dla alternatyw.
Sytuacja w Kruskal-Wallis jest podobna, ale możesz określić więcej przesunięć lokalizacji (lub jakiejkolwiek innej sytuacji, na którą patrzysz).
Wykres w tej odpowiedzi pokazuje porównanie krzywej mocy dla sparowanego testu t z symulowaną mocą dla podpisanego testu rangi przy określonej wielkości próbki, w różnych znormalizowanych przesunięciach lokalizacji dla próbkowania z rozkładów normalnych z określoną korelacją między parami. Podobne obliczenia można wykonać dla Manna-Whitneya i Kruskala-Wallisa.
źródło
Miałem dokładnie to samo pytanie co ty. Po przeszukaniu trochę znalazłem ten pakiet: https://cran.r-project.org/web/packages/MultNonParam/MultNonParam.pdf
kwpower (nreps, shift, distname = c („normal”, „logistic”), poziom = 0,05, mc = 0, taylor = FALSE)
nreps: liczby w każdej grupie.
przesunięcia: przesunięcia dla różnych populacji, zgodnie z alternatywną hipotezą.
distname: rozkład podstawowych obserwacji; Obecnie obsługiwane są normalne i logistyczne.
poziom: poziom testowy.
mc: 0 dla obliczenia asymptotycznego lub dodatnie dla przybliżenia mc. Taylor: logiczne ustalenie, czy dla prawdopodobieństw stosuje się aproksymację szeregów Taylora.
źródło