Czy metaanaliza badań, które nie są „statystycznie znaczące”, może prowadzić do „znaczącego” wniosku?

29

Metaanaliza obejmuje szereg badań, z których wszystkie wykazały wartość P większą niż 0,05. Czy w ogólnej metaanalizie można zgłosić wartość P mniejszą niż 0,05? W jakich okolicznościach?

(Jestem prawie pewien, że odpowiedź brzmi tak, ale chciałbym uzyskać odniesienie lub wyjaśnienie).

Harvey Motulsky
źródło
1
Niewiele wiem o metaanalizie, ale miałem wrażenie, że nie obejmuje ona żadnych testów hipotez, tylko oszacowanie efektu populacji, w którym to przypadku nie ma pojęcia o znaczeniu, o którym można mówić.
Kodiolog
1
Cóż, metaanaliza - na koniec dnia - jest tylko średnią ważoną. I z pewnością możesz ustawić test hipotez dla tego ważonego środka. Patrz na przykład Borenstein, Michael i in. „Podstawowe wprowadzenie do modeli z efektami stałymi i losowymi do metaanalizy.” Research Synthesis Methods 1.2 (2010): 97-111.
boscovich
1
Inne odpowiedzi są również dobre, ale prosty przypadek: dwa badania są znaczące przy p = 0,9, ale nie p = 0,95. Prawdopodobieństwo, że dwa niezależne badania wykażą p> = 0,9, wynosi tylko 0,01, więc twoja metaanaliza może wykazać istotność przy p = 0,99
karta kredytowa
2
Limit: żaden pomiar nie może dostarczyć wystarczających dowodów na poparcie / przeciw (nietrywialnej) hipotezie, aby mieć małą wartość , ale wystarczająco duży zbiór pomiarów może. p
Eric Towers
Wartości p nie wskazują ani „statystycznie znaczącego”, ani nieznaczącego efektu. Co możemy zrozumieć z ważnego wniosku? Czy to meta analityczny wniosek?
Subhash C. Davar,

Odpowiedzi:

31

Teoretycznie tak ...

Wyniki poszczególnych badań mogą być nieznaczne, ale rozpatrywane łącznie, wyniki mogą być znaczące.

Teoretycznie można kontynuować przez traktowanie wyników studiów jak każdy inny zmiennej losowej.yii

Niech będzie jakąś zmienną losową (np. Oszacowanie z badania ). Następnie, jeśli są niezależne, a , możesz konsekwentnie oszacować średnią za pomocą: i y i E [ y i ] = μyiiyiE[yi]=μ

μ^=1niyi

Dodając więcej założeń, niech będzie wariantem oszacowania . Następnie możesz skutecznie oszacować z odwrotnym ważeniem wariancji: y i μσi2yiμ

μ^=iwiyiwi=1/σi2j1/σj2

W każdym z tych przypadków może być statystycznie istotny na pewnym poziomie ufności, nawet jeśli poszczególne szacunki nie są.μ^

ALE mogą być duże problemy, problemy, o których należy wiedzieć ...

  1. Jeśli metaanaliza może nie być zbieżna z (tzn. Średnia z metaanalizy jest niespójnym estymatorem).μE[yi]μμ

    Na przykład, jeśli istnieje tendencja do publikowania negatywnych wyników, ta prosta metaanaliza może być strasznie niespójna i stronnicza! To byłoby jak oszacowanie prawdopodobieństwa, że ​​rzut monetą wyląduje na głowach, obserwując tylko te rzuty, w których nie wylądował!

  2. y j i j y i y jyi i nie mogą być niezależne. Na przykład, jeśli w dwóch badaniach i były oparte na tych samych danych, a następnie leczenia i jako niezależny w metaanalizie może znacznie lekceważyć standardowe błędy i zawyżać istotności statystycznej. Twoje szacunki byłyby nadal spójne, ale błędy standardowe muszą w uzasadniony sposób uwzględniać korelację krzyżową w badaniach.yjijyiyjot

  3. Łączenie (1) i (2) może być szczególnie złe.

    Na przykład metaanaliza uśredniających ankiet wydaje się być dokładniejsza niż jakakolwiek ankieta indywidualna. Ale uśrednianie ankiet jest nadal podatne na skorelowany błąd. W poprzednich wyborach pojawiło się coś, że młodzi pracownicy przeprowadzający ankietę wyjazdową mogą raczej przesłuchiwać innych młodych ludzi niż starszych. Jeśli wszystkie ankiety wyjściowe popełniają ten sam błąd, oznacza to, że masz złe oszacowanie, które możesz uznać za dobre.

Niewątpliwie ludzie bardziej zaznajomieni z metaanalizą mogą wymyślić lepsze przykłady, bardziej szczegółowe zagadnienia, bardziej wyrafinowane techniki szacowania itp., Ale dotyczy to jednej z najbardziej podstawowych teorii i niektórych większych problemów. Jeśli różne badania powodują niezależny, losowy błąd, metaanaliza może być niewiarygodnie potężna. Jeśli błąd jest systematyczny we wszystkich badaniach (np. Wszyscy nie doceniają starszych wyborców itp.), Wówczas średnia z badań również będzie wyłączona. Jeśli nie docenisz skorelowanych badań lub skorelowanych błędów, skutecznie przeszacujesz łączną wielkość próby i nie docenisz standardowych błędów.

Istnieją również wszelkiego rodzaju praktyczne kwestie dotyczące spójnych definicji itp.

Matthew Gunn
źródło
1
Krytykuję metaanalizę polegającą na ignorowaniu zależności między wielkościami efektów (tj. Wiele rozmiarów efektów było opartych na tych samych uczestnikach, ale traktowanych jako niezależne). Autorzy nie mówią biggie, i tak jesteśmy zainteresowani moderatorami. Mówię o tym, o czym tu mówiłeś: traktowanie ich jako „niezależnych w metaanalizie może znacznie nie docenić standardowych błędów i zawyżać istotność statystyczną”. Czy istnieje badanie potwierdzające / symulacyjne pokazujące, dlaczego tak jest? Mam wiele referencji, które mówią, że skorelowane błędy oznaczają niedocenianie SE ... ale nie wiem dlaczego?
Mark White
1
@MarkWhite Podstawowy pomysł nie jest bardziej skomplikowany niż nazwa . Jeśli dla wszystkich mamy i dla to a twoim standardowym błędem jest . Z drugiej strony, jeśli warunki kowariancji są dodatnie i duże, błąd standardowy będzie większy. iVar(Xi)=σ2Cov(Xi,Xj)=0ijVar(1Var(1njaXja)=1n2)(jaVar(Xja)+jajotCov(Xja,Xjot))jaVar(Xja)=σ2)Cov(Xi,Xj)=0ij σVar(1niXi)=σ2nσn
Matthew Gunn
@MarkWhite Nie jestem ekspertem od metaanalizy i szczerze mówiąc, nie wiem, co jest świetnym źródłem tego, jak należy robić nowoczesne metaanalizy. Pod względem koncepcyjnym replikacja analizy tych samych danych jest z pewnością przydatna (podobnie jak intensywne badanie niektórych przedmiotów), ale nie jest to to samo, co odtworzenie wyników na temat nowych, niezależnych przedmiotów.
Matthew Gunn
1
Ach, więc słowami: Całkowita wariancja wielkości efektu pochodzi od (a) jego wariancji i (b) kowariancji z innymi wielkościami efektu. Jeśli kowariancja wynosi 0, wówczas standardowe oszacowanie błędu jest w porządku; ale jeśli pasuje do innych efektów, musimy uwzględnić tę wariancję, a zignorowanie jej oznacza, że ​​nie doceniamy wariancji. To tak, jakby wariancja składa się z dwóch części A i B, a ignorowanie zależności zakłada, że ​​część B ma wartość 0, gdy nie jest?
Mark White
1
Wygląda to również na dobre źródło (patrz zwłaszcza Ramka 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Mark White
29

Tak. Załóżmy, że masz wartości p z niezależnych badań.NNN

Test Fishera

(EDYCJA - w odpowiedzi na przydatny komentarz @ mdewey poniżej istotne jest rozróżnienie różnych meta-testów. Poniżej wyjaśniam przypadek innego meta-testu wspomnianego przez mdewey)

Klasyczny meta test Fishera (patrz Fisher (1932), „Metody statystyczne dla pracowników naukowych” ) statystyka ma rozkład zerowy jako o jednolitej rv .χ 2 2 N - 2 ln ( U ) χ 2 2 U

F=2i=1Nln(pi)
χ2N22ln(U)χ22U

Niech oznacza kwantyl rozkładu zerowego.( 1 - α )χ2N2(1α)(1α)

Załóżmy, że wszystkie wartości p są równe , gdzie ewentualnie . Następnie i gdy Na przykład, dla i , poszczególne wartości muszą być mniejsze niżc > α F = - 2 N ln ( c ) F > χ 2 2 N ( 1 - α ) c < exp ( - χ 2 2 N ( 1 - α )cc>αF=2Nln(c)F>χ2N2(1α)α=0,05N=20p

c<exp(χ2N2(1α)2N)
α=0.05N=20p
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Oczywiście testami meta-statystycznymi jest „tylko” null „agregacja”, że wszystkie poszczególne null są prawdziwe, co należy odrzucić, gdy tylko jeden z null będzie fałszywy.N

EDYTOWAĆ:

Oto wykres „dopuszczalnych” wartości p względem , co potwierdza, że rośnie w , chociaż wydaje się, że się na poziomie .c N c 0,36NcNc0.36

wprowadź opis zdjęcia tutaj

Znaleziono, że górna granica dla kwantyli o rozkład tutaj , sugerując, że , aby jest ograniczony od góry przez jako . Ponieważ , ta granica wydaje się dość ostra.χ 2 2 N ( 1 - α ) 2 N + 2 log ( 1 / α ) + 2 χ2χ 2 2 N (1-α)=O(N)exp ( - χ 2 2 N ( 1 - α )

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Inverse Normal test (Stouffer i in., 1949)

Statystyka testu jest podana przez z standardową wartością normalną funkcja kwantylowa. Test odrzuca duże wartości ujemne, to , jeśli przy . Dlatego dla , . Gdy , a zatem jako . Jeśli , będzie przyjmować wartości w obszarze odbioru dla każdego . Stąd wspólna wartość p mniejsza niż 0,5 jest wystarczająca do odrzucenia meta testu jako

Z=1Ni=1NΦ1(pi)
Φ1Z<1.645α=0.05pi=cZ=NΦ1(c)c<0.5Φ1(c)<0ZpNc0.5ZNN.

Mówiąc dokładniej, jeśli , co ma tendencję do od dołu jako .Z<1.645c<Φ(1.645/N)Φ(0)=0.5N

Christoph Hanck
źródło
2
+1 i wow! nie spodziewał się, że w ogóle będzie górna granica, nie mówiąc już o . 1/mi
ameba mówi Przywróć Monikę
Dzięki :-). Nie spodziewałem się też tego, zanim zobaczyłem spisek ...
Christoph Hanck
5
Co ciekawe, metoda Fishera jest jedyną powszechnie stosowaną metodą, która ma tę właściwość. Dla większości innych to, co nazywacie F, zwiększa się z N, jeśli $ c> 0,5), a zmniejsza w przeciwnym razie. Dotyczy to metody Stouffera i Edgingtona, a także metod opartych na logitach i średniej p. Różne metody, które są szczególnymi przypadkami metody Wilkinsona (minimum p, maksimum p itp.), Mają znowu różne właściwości.
mdewey,
1
@mdewey, to naprawdę interesujące, właśnie wybrałem test Fishera wyłącznie dlatego, że przyszedł mi do głowy jako pierwszy. To powiedziawszy, „tylko jeden”, masz na myśli konkretną granicę ? Wasze komentarze, które staram się przeliterować w mojej edycji, sugerują mi, że metoda Stouffera ma również górną granicę, która okazuje się 0,5? 1/mi
Christoph Hanck
p=0,9p
4

p

pα

p[1]p[2)]p[k]
k
p[1]<1-(1-α)1k

kαp[1]α

pp[r]1rkr=2)p=0,09

Metodę LHC Tippett opisano w książce Metody statystyki. 1931 (1st ed) i metoda Wilkinsona jest tutaj w artykule „Rozważenie statystyczne w badaniach psychologicznych”

mdewey
źródło
1
Dzięki. Należy jednak pamiętać, że większość metod metaanalizy łączy wielkości efektów (uwzględniając wszelkie różnice w wielkości próby) i nie łączy wartości P.
Harvey Motulsky,
@HarveyMotulsky zgodził się, że łączenie wartości p jest ostatecznością, ale OP oznaczył swoje pytanie tagiem łączącym wartości p, więc odpowiedziałem w tym duchu
mdewey,
Myślę, że twoja odpowiedź jest poprawna.
Subhash C. Davar