Metoda Z-score Stouffera: co jeśli sumujemy zamiast ?

22

Przeprowadzam niezależnych testów statystycznych z tą samą hipotezą zerową i chciałbym połączyć wyniki w jedną wartość . Wydaje się, że istnieją dwie „akceptowane” metody: metoda Fishera i metoda Stouffera .Np

Moje pytanie dotyczy metody Stouffera. Dla każdego osobnego testu otrzymuję wynik Z- zi . Zgodnie z hipotezą zerową, a każdy z nich jest rozprowadzany z rozkładu normalnego, to suma Σzi wynika z rozkładu normalnego o wariancji N . Dlatego metoda Stouffera sugeruje obliczenie Σzi/N , które powinny być normalnie rozłożone z wariancją jednostkową, a następnie użyć tego jako łącznego wyniku Z.

To rozsądne, ale oto inne podejście, które wymyśliłem i które dla mnie również brzmi rozsądnie. Ponieważ każdy z zi pochodzi ze standardowego rozkładu normalnego, suma kwadratów S=Σzi2 powinna pochodzić z rozkładu chi-kwadrat o N stopniach swobody. Można więc obliczyć S i przekonwertować go na wartość p za pomocą skumulowanej funkcji rozkładu chi-kwadrat o N stopniach swobody ( p=1XN(S) , gdzie XN to CDF).

Jednak nigdzie nie mogę znaleźć takiego podejścia. Czy kiedykolwiek był używany? Czy to ma imię? Jakie byłyby zalety / wady w porównaniu z metodą Stouffera? A może w moim rozumowaniu jest jakaś wada?

ameba mówi Przywróć Monikę
źródło
Istotną wadą, która wyskakuje, jest metoda Stouffera, która może wykryć systematyczne przesunięcia w , co zwykle można by oczekiwać, gdy jedna alternatywa jest konsekwentnie prawdziwa, podczas gdy metoda chi-kwadrat wydaje się mieć mniejszą moc do tego. Szybka symulacja ( , iteracje) pokazuje, że tak jest; metoda chi-kwadrat jest znacznie mniej skuteczna w wykrywaniu jednostronnej alternatywy. ziN=100104
whuber
2
Dzięki, kurwa! Czy mógłbyś bardziej szczegółowo opisać swoją symulację, jestem ciekawy. Z drugiej strony, jeśli mają różne znaki, ale duże wartości bezwzględne, to metoda Stouffera może skończyć z całkowitym , podczas gdy moja metoda zgłosi BARDZO znaczące . Wydaje mi się, że w niektórych przypadkach może to mieć dużo więcej sensu (i podejrzewam, że tak, ale nie jestem pewien). z 0 strziz0p
ameba mówi Przywróć Monikę
1
Masz rację, dlatego nie opublikowałem komentarza jako odpowiedzi. Ale jakie są sytuacje, w których alternatywy różnią się tak radykalnie od zera w obu kierunkach, z wyjątkiem samego przypadku?
whuber
Sytuacja, o której pomyślałem, jest podobna do tej z testu chi-kwadrat Pearsona, gdzie interesuje się, czy rozkład empiryczny różni się od zera; wtedy odchylenia w obu kierunkach mają znaczenie. Ale po zastanowieniu, wydaje mi się, że twoja intuicja jest poprawna, aw moim przypadku podejrzane odchylenia są w jednym kierunku. Jeśli opublikujesz swój komentarz jako odpowiedź i podasz szczegółowe informacje na temat swojej szybkiej symulacji (jestem bardzo ciekawy, dlaczego metoda chi-kwadrat okazała się mniej skuteczna!), Chętnie ją zaakceptuję.
ameba mówi Przywróć Monikę
Suma n wyników Z ma rozkład z wariancją n? Dlaczego wariancja nie jest kwadratem błędu standardowego średniej? Suma sugerowana w tytule ma wariancję N. Może brakuje mi czegoś oczywistego? Z2
russellpierce

Odpowiedzi:

17

Jedną z wad, która wyskakuje, jest metoda Stouffera, która może wykryć systematyczne przesunięcia w , czego zwykle można się spodziewać, gdy jedna alternatywa jest konsekwentnie prawdziwa, podczas gdy metoda chi-kwadrat wydaje się mieć mniejszą moc do tego. Szybka symulacja pokazuje, że tak jest; metoda chi-kwadrat jest mniej skuteczna w wykrywaniu jednostronnej alternatywy. Oto histogramy wartości p obiema metodami (czerwony = Stouffer, niebieski = Chi-kwadrat) w 10 5 niezależnych powtórzeń o N = 10 i różnych jednostronnie standaryzowanych efektów jj, począwszy od zera ( μ = 0 ) przez 0,6 SD ( μ =zi105N=10μμ=00.6 ).μ=0.6

Postać

Lepsza procedura będzie miała większy obszar bliski zeru. Dla wszystkich pokazanych dodatnich wartości procedura ta jest procedurą Stouffera.μ


Kod R.

Obejmuje to metodę Fishera (skomentowaną) do porównania.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })
Whuber
źródło
Jeszcze raz dziękuję, to jest bardzo miłe. A co się stanie, jeśli odrzucisz metodę Fishera? Podejrzewam, że już tego próbowałeś. Czy Stouffer konsekwentnie wygrywa? (Przepraszam, że nie wypróbowałem tego sam, ale nie mam doświadczenia z R i nie mam go pod ręką.)
Amoeba mówi Przywróć Monikę
μNN
1
Możesz łatwo zmodyfikować Rsymulację, aby to przetestować. Byłby to dobry sposób na zapoznanie się z tą statystyczną platformą obliczeniową. :-)
whuber
2
zizi
Świetna dyskusja i kontrola jakości! Jedno krótkie pytanie: co, jeśli jeden form ten problem jako poboczna / wykrywanie anomalii poprzez obliczenie Odległość Mahalanobisa i postępuj coś jak to ?
NULL
10

Jednym z ogólnych sposobów na uzyskanie wglądu w statystyki testowe jest wyprowadzenie (zwykle domyślnych) podstawowych założeń, które doprowadziłyby do tego, że statystyka testowa jest najsilniejsza. W tym konkretnym przypadku student i ja niedawno to zrobiliśmy: http://arxiv.org/abs/1111.1210v2 (poprawiona wersja pojawi się w Annals of Applied Statistics).

Bardzo krótko streszczając (i zgodnie z wynikami symulacji w innej odpowiedzi) metoda Stouffera będzie najsilniejsza, gdy „prawdziwe” podstawowe efekty będą równe; suma Z ^ 2 będzie najsilniejsza, gdy podstawowe efekty są normalnie rozmieszczone około 0. Jest to niewielkie uproszczenie, które pomija szczegóły: więcej informacji można znaleźć w sekcji 2.5 przedruku arxiv połączonego powyżej.

mstephens
źródło
2
(+1) Jakoś myślałem, że napisałem to dawno temu, ale wygląda na to, że nie: dziękuję bardzo za rejestrację tutaj, aby odpowiedzieć na moje pytanie! Doceniam to. Rozdział 2.5 w twoim artykule jest rzeczywiście bardzo istotny.
ameba mówi Przywróć Monikę
3

Nieznacznie o / t: jednym z problemów w obu tych podejściach jest utrata mocy z powodu stopni swobody (N dla stouffera; 2N dla Fishera). Opracowano w tym celu lepsze podejścia metaanalityczne, które warto rozważyć (na przykład metaanaliza ważona odwrotnością wariancji).

Jeśli szukasz dowodów na alternatywne testy w grupie, możesz spojrzeć na statystyki dotyczące większej krytyki Donoho i Jina: https://projecteuclid.org/euclid.aos/1085408492

Cotsapas
źródło
1

Aby odpowiedzieć na pytanie i dla dalszych czytelników: czy kiedykolwiek był używany ?, istnieje wyczerpujący artykuł Cousins ​​(2008) na temat arXiv, w którym wymieniono i oceniono kilka alternatywnych podejść. Proponowany wydaje się nie pojawiać.

victor_v
źródło