Metaanaliza obejmuje szereg badań, z których wszystkie wykazały wartość P większą niż 0,05. Czy w ogólnej metaanalizie można zgłosić wartość P mniejszą niż 0,05? W jakich okolicznościach?
(Jestem prawie pewien, że odpowiedź brzmi tak, ale chciałbym uzyskać odniesienie lub wyjaśnienie).
statistical-significance
meta-analysis
combining-p-values
Harvey Motulsky
źródło
źródło
Odpowiedzi:
Teoretycznie tak ...
Wyniki poszczególnych badań mogą być nieznaczne, ale rozpatrywane łącznie, wyniki mogą być znaczące.
Teoretycznie można kontynuować przez traktowanie wyników studiów jak każdy inny zmiennej losowej.yi i
Niech będzie jakąś zmienną losową (np. Oszacowanie z badania ). Następnie, jeśli są niezależne, a , możesz konsekwentnie oszacować średnią za pomocą: i y i E [ y i ] = μyi i yi E[yi]=μ
Dodając więcej założeń, niech będzie wariantem oszacowania . Następnie możesz skutecznie oszacować z odwrotnym ważeniem wariancji: y i μσ2i yi μ
W każdym z tych przypadków może być statystycznie istotny na pewnym poziomie ufności, nawet jeśli poszczególne szacunki nie są.μ^
ALE mogą być duże problemy, problemy, o których należy wiedzieć ...
Jeśli metaanaliza może nie być zbieżna z (tzn. Średnia z metaanalizy jest niespójnym estymatorem).μE[yi]≠μ μ
Na przykład, jeśli istnieje tendencja do publikowania negatywnych wyników, ta prosta metaanaliza może być strasznie niespójna i stronnicza! To byłoby jak oszacowanie prawdopodobieństwa, że rzut monetą wyląduje na głowach, obserwując tylko te rzuty, w których nie wylądował!
y j i j y i y jyi i nie mogą być niezależne. Na przykład, jeśli w dwóch badaniach i były oparte na tych samych danych, a następnie leczenia i jako niezależny w metaanalizie może znacznie lekceważyć standardowe błędy i zawyżać istotności statystycznej. Twoje szacunki byłyby nadal spójne, ale błędy standardowe muszą w uzasadniony sposób uwzględniać korelację krzyżową w badaniach.yj i j yi yj
Łączenie (1) i (2) może być szczególnie złe.
Na przykład metaanaliza uśredniających ankiet wydaje się być dokładniejsza niż jakakolwiek ankieta indywidualna. Ale uśrednianie ankiet jest nadal podatne na skorelowany błąd. W poprzednich wyborach pojawiło się coś, że młodzi pracownicy przeprowadzający ankietę wyjazdową mogą raczej przesłuchiwać innych młodych ludzi niż starszych. Jeśli wszystkie ankiety wyjściowe popełniają ten sam błąd, oznacza to, że masz złe oszacowanie, które możesz uznać za dobre.
Niewątpliwie ludzie bardziej zaznajomieni z metaanalizą mogą wymyślić lepsze przykłady, bardziej szczegółowe zagadnienia, bardziej wyrafinowane techniki szacowania itp., Ale dotyczy to jednej z najbardziej podstawowych teorii i niektórych większych problemów. Jeśli różne badania powodują niezależny, losowy błąd, metaanaliza może być niewiarygodnie potężna. Jeśli błąd jest systematyczny we wszystkich badaniach (np. Wszyscy nie doceniają starszych wyborców itp.), Wówczas średnia z badań również będzie wyłączona. Jeśli nie docenisz skorelowanych badań lub skorelowanych błędów, skutecznie przeszacujesz łączną wielkość próby i nie docenisz standardowych błędów.
Istnieją również wszelkiego rodzaju praktyczne kwestie dotyczące spójnych definicji itp.
źródło
Tak. Załóżmy, że masz wartości p z niezależnych badań.NN N
Test Fishera
(EDYCJA - w odpowiedzi na przydatny komentarz @ mdewey poniżej istotne jest rozróżnienie różnych meta-testów. Poniżej wyjaśniam przypadek innego meta-testu wspomnianego przez mdewey)
Klasyczny meta test Fishera (patrz Fisher (1932), „Metody statystyczne dla pracowników naukowych” ) statystyka ma rozkład zerowy jako o jednolitej rv .χ 2 2 N - 2 ln ( U ) ∼ χ 2 2 U
Niech oznacza kwantyl rozkładu zerowego.( 1 - α )χ22N(1−α) (1−α)
Załóżmy, że wszystkie wartości p są równe , gdzie ewentualnie . Następnie i gdy Na przykład, dla i , poszczególne wartości muszą być mniejsze niżc > α F = - 2 N ln ( c ) F > χ 2 2 N ( 1 - α ) c < exp ( - χ 2 2 N ( 1 - α )c c>α F=−2Nln(c) F>χ22N(1−α) α=0,05N=20p
Oczywiście testami meta-statystycznymi jest „tylko” null „agregacja”, że wszystkie poszczególne null są prawdziwe, co należy odrzucić, gdy tylko jeden z null będzie fałszywy.N
EDYTOWAĆ:
Oto wykres „dopuszczalnych” wartości p względem , co potwierdza, że rośnie w , chociaż wydaje się, że się na poziomie .c N c ≈ 0,36N c N c≈0.36
Znaleziono, że górna granica dla kwantyli o rozkład tutaj , sugerując, że , aby jest ograniczony od góry przez jako . Ponieważ , ta granica wydaje się dość ostra.χ 2 2 N ( 1 - α ) ≤ 2 N + 2 log ( 1 / α ) + 2 √χ2 χ 2 2 N (1-α)=O(N)exp ( - χ 2 2 N ( 1 - α )
Inverse Normal test (Stouffer i in., 1949)
Statystyka testu jest podana przez z standardową wartością normalną funkcja kwantylowa. Test odrzuca duże wartości ujemne, to , jeśli przy . Dlatego dla , . Gdy , a zatem jako . Jeśli , będzie przyjmować wartości w obszarze odbioru dla każdego . Stąd wspólna wartość p mniejsza niż 0,5 jest wystarczająca do odrzucenia meta testu jako
Mówiąc dokładniej, jeśli , co ma tendencję do od dołu jako .Z<−1.645 c<Φ(−1.645/N−−√) Φ(0)=0.5 N→∞
źródło
Metodę LHC Tippett opisano w książce Metody statystyki. 1931 (1st ed) i metoda Wilkinsona jest tutaj w artykule „Rozważenie statystyczne w badaniach psychologicznych”
źródło