Metoda Z-score Stouffera: co jeśli sumujemy zamiast ?

22

Przeprowadzam niezależnych testów statystycznych z tą samą hipotezą zerową i chciałbym połączyć wyniki w jedną wartość . Wydaje się, że istnieją dwie „akceptowane” metody: metoda Fishera i metoda Stouffera . $N$ $p$

Moje pytanie dotyczy metody Stouffera. Dla każdego osobnego testu otrzymuję wynik Z- $z_i$ . Zgodnie z hipotezą zerową, a każdy z nich jest rozprowadzany z rozkładu normalnego, to suma $\Sigma z_i$ wynika z rozkładu normalnego o wariancji $N$ . Dlatego metoda Stouffera sugeruje obliczenie $\Sigma z_i / \sqrt{N}$ , które powinny być normalnie rozłożone z wariancją jednostkową, a następnie użyć tego jako łącznego wyniku

To rozsądne, ale oto inne podejście, które wymyśliłem i które dla mnie również brzmi rozsądnie. Ponieważ każdy z $z_i$ pochodzi ze standardowego rozkładu normalnego, suma kwadratów $S=\Sigma z^2_i$ powinna pochodzić z rozkładu chi-kwadrat o $N$ stopniach swobody. Można więc obliczyć $S$ i przekonwertować go na wartość $p$ za pomocą skumulowanej funkcji rozkładu chi-kwadrat o $N$ stopniach swobody ( $p=1−X_N(S)$ , gdzie $X_N$ to CDF).

Jednak nigdzie nie mogę znaleźć takiego podejścia. Czy kiedykolwiek był używany? Czy to ma imię? Jakie byłyby zalety / wady w porównaniu z metodą Stouffera? A może w moim rozumowaniu jest jakaś wada?

hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values ameba mówi Przywróć Monikę
źródło

Istotną wadą, która wyskakuje, jest metoda Stouffera, która może wykryć systematyczne przesunięcia w , co zwykle można by oczekiwać, gdy jedna alternatywa jest konsekwentnie prawdziwa, podczas gdy metoda chi-kwadrat wydaje się mieć mniejszą moc do tego. Szybka symulacja ( , iteracje) pokazuje, że tak jest; metoda chi-kwadrat jest znacznie mniej skuteczna w wykrywaniu jednostronnej alternatywy.

z_{i}

$z_i$

N = 100

$N=100$

10^{4}

$10^4$

whuber

2

Dzięki, kurwa! Czy mógłbyś bardziej szczegółowo opisać swoją symulację, jestem ciekawy. Z drugiej strony, jeśli mają różne znaki, ale duże wartości bezwzględne, to metoda Stouffera może skończyć z całkowitym , podczas gdy moja metoda zgłosi BARDZO znaczące . Wydaje mi się, że w niektórych przypadkach może to mieć dużo więcej sensu (i podejrzewam, że tak, ale nie jestem pewien).

z_{i}

$z_i$

z \approx 0

$z \approx 0$

p

$p$

ameba mówi Przywróć Monikę

1

Masz rację, dlatego nie opublikowałem komentarza jako odpowiedzi. Ale jakie są sytuacje, w których alternatywy różnią się tak radykalnie od zera w obu kierunkach, z wyjątkiem samego przypadku?

whuber

Sytuacja, o której pomyślałem, jest podobna do tej z testu chi-kwadrat Pearsona, gdzie interesuje się, czy rozkład empiryczny różni się od zera; wtedy odchylenia w obu kierunkach mają znaczenie. Ale po zastanowieniu, wydaje mi się, że twoja intuicja jest poprawna, aw moim przypadku podejrzane odchylenia są w jednym kierunku. Jeśli opublikujesz swój komentarz jako odpowiedź i podasz szczegółowe informacje na temat swojej szybkiej symulacji (jestem bardzo ciekawy, dlaczego metoda chi-kwadrat okazała się mniej skuteczna!), Chętnie ją zaakceptuję.

ameba mówi Przywróć Monikę

Suma n wyników Z ma rozkład z wariancją n? Dlaczego wariancja nie jest kwadratem błędu standardowego średniej? Suma

sugerowana w tytule ma wariancję N. Może brakuje mi czegoś oczywistego?

Z^{2}

$Z^2$

russellpierce

17

Jedną z wad, która wyskakuje, jest metoda Stouffera, która może wykryć systematyczne przesunięcia w , czego zwykle można się spodziewać, gdy jedna alternatywa jest konsekwentnie prawdziwa, podczas gdy metoda chi-kwadrat wydaje się mieć mniejszą moc do tego. Szybka symulacja pokazuje, że tak jest; metoda chi-kwadrat jest mniej skuteczna w wykrywaniu jednostronnej alternatywy. Oto histogramy wartości p obiema metodami (czerwony = Stouffer, niebieski = Chi-kwadrat) w niezależnych powtórzeń o i różnych jednostronnie standaryzowanych efektów począwszy od zera ( ) przez SD ( $z_i$ $10^5$ $N=10$ $\mu$ $\mu=0$ $0.6$ ). $\mu=0.6$

Postać

Lepsza procedura będzie miała większy obszar bliski zeru. Dla wszystkich pokazanych dodatnich wartości procedura ta jest procedurą Stouffera. $\mu$

Kod R.

Obejmuje to metodę Fishera (skomentowaną) do porównania.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

Whuber
źródło

Jeszcze raz dziękuję, to jest bardzo miłe. A co się stanie, jeśli odrzucisz metodę Fishera? Podejrzewam, że już tego próbowałeś. Czy Stouffer konsekwentnie wygrywa? (Przepraszam, że nie wypróbowałem tego sam, ale nie mam doświadczenia z R i nie mam go pod ręką.)

Amoeba mówi Przywróć Monikę

μ

$\mu$

N

$N$

N

$N$

1

Możesz łatwo zmodyfikować Rsymulację, aby to przetestować. Byłby to dobry sposób na zapoznanie się z tą statystyczną platformą obliczeniową. :-)

whuber

2

z_{i}

$z_i$

z_{i}

$z_i$

Świetna dyskusja i kontrola jakości! Jedno krótkie pytanie: co, jeśli jeden form ten problem jako poboczna / wykrywanie anomalii poprzez obliczenie Odległość Mahalanobisa i postępuj coś jak to ?

NULL

10

Jednym z ogólnych sposobów na uzyskanie wglądu w statystyki testowe jest wyprowadzenie (zwykle domyślnych) podstawowych założeń, które doprowadziłyby do tego, że statystyka testowa jest najsilniejsza. W tym konkretnym przypadku student i ja niedawno to zrobiliśmy: http://arxiv.org/abs/1111.1210v2 (poprawiona wersja pojawi się w Annals of Applied Statistics).

Bardzo krótko streszczając (i zgodnie z wynikami symulacji w innej odpowiedzi) metoda Stouffera będzie najsilniejsza, gdy „prawdziwe” podstawowe efekty będą równe; suma Z ^ 2 będzie najsilniejsza, gdy podstawowe efekty są normalnie rozmieszczone około 0. Jest to niewielkie uproszczenie, które pomija szczegóły: więcej informacji można znaleźć w sekcji 2.5 przedruku arxiv połączonego powyżej.

mstephens
źródło

2

(+1) Jakoś myślałem, że napisałem to dawno temu, ale wygląda na to, że nie: dziękuję bardzo za rejestrację tutaj, aby odpowiedzieć na moje pytanie! Doceniam to. Rozdział 2.5 w twoim artykule jest rzeczywiście bardzo istotny.

ameba mówi Przywróć Monikę

3

Nieznacznie o / t: jednym z problemów w obu tych podejściach jest utrata mocy z powodu stopni swobody (N dla stouffera; 2N dla Fishera). Opracowano w tym celu lepsze podejścia metaanalityczne, które warto rozważyć (na przykład metaanaliza ważona odwrotnością wariancji).

Jeśli szukasz dowodów na alternatywne testy w grupie, możesz spojrzeć na statystyki dotyczące większej krytyki Donoho i Jina: https://projecteuclid.org/euclid.aos/1085408492

Cotsapas
źródło

1

Aby odpowiedzieć na pytanie i dla dalszych czytelników: czy kiedykolwiek był używany ?, istnieje wyczerpujący artykuł Cousins (2008) na temat arXiv, w którym wymieniono i oceniono kilka alternatywnych podejść. Proponowany wydaje się nie pojawiać.

victor_v
źródło

Metoda Z-score Stouffera: co jeśli sumujemy zamiast ?

Odpowiedzi:

Kod R.