Podwajanie ogonów w teście permutacji na dwóch próbkach

10

Załóżmy, że mamy dwie próbki i chcemy ustalić, czy są one pobierane z tego samego rozkładu, przy czym próbki A, B składają się z niektórych liczb całkowitych.

Jeśli przetestujemy to za pomocą testu permutacji z dwiema próbkami, w szczególności patrząc na permutacje, w których różnice w średnich próbkach są tak ekstremalne, jak zaobserwowana różnica: czy jest jakiś powód, aby sądzić, że możemy obliczyć dwustronne p- wartość, patrząc na jeden ogon i podwojenie prawdopodobieństwa?

Tak wydaje się mówić w moich notatkach z wykładów, ale nie rozumiem, dlaczego moglibyśmy założyć, że ogony są symetryczne (lub dlaczego nie pociąga to za sobą takiego założenia). Wyjaśnienia nie były nadchodzące.

Harri
źródło

Odpowiedzi:

10

Nie ma gwarancji, że rozkład permutacji statystyki testowej będzie symetryczny, więc nie możesz tego zrobić w ten sposób. Zamiast tego dodajesz oba ogony. W przypadku dwóch niezależnych próbek hipotezą zerową jest to, że dwa parametry lokalizacji są równe. Zakładając ciągłe rozkłady i równy rozkład w obu grupach, mamy wymienność pod hipotezą zerową. Statystyka testowa jest różnicą średnich, przy poniżej zera.TE(T)=0

Wartość w oryginalnej próbce to , a jej wartości dla permutacji . to skrót od „liczba” czegoś, np. to liczba statystyk testu permutacji. Zatem wartość dla hipotezy dwustronnej to , gdzieTTempT()(T)ppts=pleft+pright

pleft=(T<=min(Temp,Temp))(T)

pright=(T>=max(Temp,Temp))(T)

(zakładając, że mamy pełny rozkład permutacji). Porównajmy oba podejścia dla przypadku dwóch niezależnych próbek, kiedy możemy obliczyć dokładny (pełny) rozkład permutacji.

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

Teraz obliczyć wartości i zweryfikować proponowane rozwiązanie za pomocą implementacji w pakiecie R. Zauważ, że , więc ma to znaczenie, w jaki sposób obliczasz .pcoinpleftprightpts

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0 

PS W przypadku Monte-Carlo, w którym próbkujemy tylko z rozkładu permutacji, wartości byłyby zdefiniowane w następujący sposób:p

pleft=(T<=min(Temp,Temp))+1(T)+1

pright=(T>=max(Temp,Temp))+1(T)+1

pts=(abs(T)>=abs(Temp))+1(T)+1

Powodem dodania jeszcze jednej intuicyjnej ekstremalnej permutacji jest to, że musimy również policzyć próbkę empiryczną. W przeciwnym razie permutacja wartość może wynosić 0, co nie może się zdarzyć w przypadku ciągłym (patrz tutaj , uwaga: niektóre teksty zalecają tę poprawkę, niektóre nie).p

karakal
źródło
Czy to nie zakłada, że ​​oczekiwanie wynosi zero? T
whuber
@ whuber Dodałem, że przy zerowej hipotezie równych parametrów lokalizacji w obu grupach mamy wymienność poniżej zera, a poniżej zera (zakładając ciągłość i równy spread). E(T)=0
caracal
Dzięki, to jest poprawa. Czy mógłbyś zatem wyjaśnić, w jaki sposób statystyka może nie mieć rozkładu symetrycznego przy takim założeniu?
whuber
2
@ whuber Rozkład permutacji może być asymetryczny, ponieważ zależy od wartości próbek. Grupa wartości A: 1, grupa wartości B: 2, 2. Możliwe są trzy odpowiednie permutacje dające . T=1,.5,.5
caracal
Dziękuję za wyjaśnienie: kieruję się teraz logiką.
whuber