Wiemy, że musimy zastosować korekty podobne do Benjaminiego Hochberga do testowania wielu hipotez w eksperymentach opartych na jednym zestawie danych, w celu kontroli częstotliwości fałszywych odkryć, w przeciwnym razie wszystkie eksperymenty, które dadzą pozytywny wynik, mogą być fałszywe.
Ale dlaczego nie stosujemy tej samej zasady do wszystkich eksperymentów od samego początku, niezależnie od tego, skąd pochodzą dane?
W końcu ponad połowa opublikowanych wyników naukowych, które są uważane za „znaczące”, są obecnie znane jako fałszywe i nieodtwarzalne, i nie ma powodu, dla którego tak łatwo nie byłoby tak w 100%. Ponieważ naukowcy mają tendencję do publikowania wyników pozytywnych, nie mamy pojęcia o liczbie wyników negatywnych, więc nie mamy pojęcia, czy to, co publikujemy, jest zawsze fałszywie dodatnie - wyniki pozytywne, które pojawiły się przypadkowo w ramach hipotezy zerowej. Tymczasem nie ma nic do powiedzenia, że matematyka kryjąca się za wieloma poprawkami do testowania hipotez powinna mieć zastosowanie tylko do wyników z tego samego zestawu danych, a nie do wyników wszystkich danych eksperymentalnych zebranych w czasie.
Wydaje się, że cała nauka stała się jedną wielką wyprawą wędkarską opartą na fałszywych lub słabych hipotezach, więc jak możemy to kontrolować?
Jak możemy kontrolować współczynnik fałszywych odkryć, jeśli wszystko, co kiedykolwiek publikujemy, to uzyskane wyniki niezależne bez zastosowania korekty do testowania wielu hipotez we wszystkich dotychczasowych eksperymentach?
Czy można kontrolować częstotliwość fałszywych odkryć bez zastosowania takiej korekty?
Odpowiedzi:
Byłby to oczywiście koszmar absolutny do zrobienia w praktyce, ale załóżmy, że da się to zrobić: mianujemy sułtana statystycznego i każdy, kto przeprowadzi test hipotez, zgłasza swoje surowe wartości dla tego despota. Wykonuje jakąś globalną (dosłownie) korektę wielokrotnych porównań i odpowiada poprawionymi wersjami.p
Czy wprowadziłoby to złoty wiek nauki i rozumu? Nie, prawdopodobnie nie.
Różne podejścia wielokrotnej korekty mają pomóc ci wrócić do nominalnego poziomu błędu, który już wybrałeś do tolerowania dla poszczególnych testów. Robią to na nieco inne sposoby. Metody kontrolujące rodzinny wskaźnik błędów , takie jak procedury Bonferroniego , Sidaka i Holma , mówią: „Chciałeś 5% szansy na błąd w jednym teście, więc upewnimy się , że nie ma więcej niż 5 % szans na popełnienie błędów we wszystkich testach. ” Metody kontrolujące współczynnik fałszywych odkryćzamiast tego powiedz „Najwyraźniej nie masz racji, że do 5% czasu przeprowadzasz pojedynczy test, więc upewnimy się, że nie więcej niż 5% twoich„ połączeń ”jest błędnych podczas wykonywania wielu testów”. (Zobacz różnicę?)
Załóżmy teraz, że próbujesz kontrolować rodzinny poziom błędów wszystkich uruchomionych testów hipotez. Mówisz zasadniczo, że chcesz <5% szansy na fałszywe odrzucenie jakiejkolwiek hipotezy zerowej, kiedykolwiek. To ustanawia niemożliwie rygorystyczny próg, a wnioskowanie byłoby skutecznie bezużyteczne, ale istnieje jeszcze bardziej palący problem: twoja globalna korekta oznacza, że testujesz absolutnie bezsensowne „złożone hipotezy”, takie jak
Dzięki korektom współczynnika fałszywego odkrywania problem liczbowy nie jest tak poważny, ale filozoficznie jest bałaganem. Zamiast tego sensowne jest zdefiniowanie „rodziny” powiązanych testów, takich jak lista genów kandydujących podczas badania genomiki lub zestaw przedziałów czasowo-częstotliwościowych podczas analizy spektralnej. Dostosowanie rodziny do konkretnego pytania pozwala właściwie zinterpretować błąd typu I związany bezpośrednio. Na przykład, możesz spojrzeć na zestaw wartości p skorygowanych FWER z własnych danych genomowych i powiedzieć: „Istnieje <5% szans, że którykolwiek z tych genów jest fałszywie dodatni”. Jest to o wiele lepsze niż mglista gwarancja obejmująca wnioski dokonywane przez osoby, na których ci nie zależy, na tematy, na których ci nie zależy.
Drugą stroną tego jest to, że odpowiedni wybór „rodziny” jest dyskusyjny i nieco subiektywny (czy wszystkie geny są jedną rodziną, czy mogę po prostu rozważyć kinazy?), Ale powinien być poinformowany o twoim problemie i nie wierzę nikomu poważnie opowiada się za definiowaniem rodzin niemal tak szeroko.
Co powiesz na Bayes?
Analiza bayesowska oferuje spójną alternatywę dla tego problemu - jeśli chcesz odejść nieco od frameworku błędów Frequentist Type I / Type II. Zaczynamy od jakiegoś niezobowiązującego wcześniej ... cóż ... wszystkiego. Za każdym razem, gdy czegoś się uczymy, informacja ta jest łączona z wcześniejszym wygenerowaniem rozkładu bocznego, który z kolei staje się priorytetem przy następnym nauczeniu się czegoś. Daje to spójną regułę aktualizacji i można porównać różne hipotezy dotyczące konkretnych rzeczy, obliczając współczynnik Bayesa między dwiema hipotezami. Można przypuszczalnie wyróżnić duże części modelu, co nawet nie uczyniłoby tego szczególnie uciążliwym.
Istnieje uporczywy ... mem, że metody bayesowskie nie wymagają wielu korekt porównań. Niestety, kursy późniejsze to po prostu kolejna statystyka testowa dla częstych (tj. Osób, którym zależy na błędach typu I / II). Nie mają żadnych specjalnych właściwości, które kontrolują tego rodzaju błędy (dlaczego mieliby?). Wracasz więc na trudny teren, ale być może na nieco bardziej pryncypialnym gruncie.
Bayesowskim kontrargumentem jest to, że powinniśmy skupić się na tym, co wiemy teraz, a zatem te poziomy błędów nie są tak ważne.
O odtwarzalności
Wydaje się, że sugerujesz, że niewłaściwa wielokrotna korekta porównań jest przyczyną wielu niepoprawnych / odtwarzalnych wyników. Mam wrażenie, że inne czynniki są bardziej prawdopodobne. Oczywistym jest fakt, że nacisk na publikację prowadzi ludzi do unikania eksperymentów, które naprawdę podkreślają ich hipotezę (tj. Zły projekt eksperymentalny).
źródło
Myślę, że celowo malujesz pesymistyczny pogląd na naukę generowany przez statystyki. Rzeczywiście, moim zdaniem, statystyki to nie tylko zestaw narzędzi zapewniających wartości p. Istnieje również stan dyscypliny, ostrożności i czujności w odniesieniu do niektórych możliwych efektów związanych z procedurą indukcji naukowej ... i chociaż moim zdaniem wszystko, co mówisz, jest mniej więcej prawdą, oto niektóre z moich opinii na temat tego, dlaczego mamy pewne gwarancje o wiedzy, którą tworzymy:
Po pierwsze, wniosek nie powinien być wyciągany tylko przy argumencie wartości ap niższej niż określony próg.
Po drugie, według mojej wiedzy argumenty typu „ponad połowa opublikowanych wyników naukowych są błędne” są istotne i interesujące, ale są obliczane na podstawie wartości p w przybliżeniu równych 0,05 (patrz np. Zamieszanie dotyczące wartości p i częstości fałszywych odkryć ) . W przypadku niższych wartości p efekt jest znacznie niższy niż zapowiadany, aw praktyce nierzadko uzyskuje się wartości p znacznie niższe niż 0,05. Co więcej, dana hipoteza jest wielokrotnie potwierdzana przez kilka pod hipotez, co ponownie zmniejsza zapowiadane efekty.
Po trzecie, kwestia odtwarzalności jest prawdziwa, ale stanowi również problem, z którym musi się zmierzyć statystyk, identyfikując i radząc sobie z mylącymi efektami, projektami grup ... i można to zrobić bardzo dobrze, jeśli jest to zrobione z fachową wiedzą i rygorystycznością.
Wreszcie, jak rozumiem, archetypowe badanie statystyczne musi mniej więcej opierać się na następujących 5 następujących po sobie krokach:
Ta ogólna wytyczna uniemożliwia nam wyprawy na ryby jako narzędzie do wyciągania ogólnych wniosków.
Podsumowując, powiedziałbym, że twój zamiar ochrony nas przed złymi wnioskami naukowymi poprzez przekroczenie wartości p jest nieco iluzoryczny. Wolałbym chronić nas przed złymi wnioskami naukowymi, zapewniając i zachęcając do ostrzeżonych i odpowiednich analiz (i chciałbym sądzić, że jest to powód, dla którego tylu wykwalifikowanych osób jest tutaj, aby pomagać innym na tej stronie).
źródło
Pamiętaj, że (częste) poziomy błędów nie dotyczą w ogóle prawdopodobieństwa hipotezy testowanej przez dowolny test, ale jako metody przeprowadzania testów z gwarantowanymi wskaźnikami długoterminowych niepowodzeń. Korekta do wielokrotnych porównań to kolejna metoda gwarantująca długoterminowe wskaźniki awarii: jedna do konstruowania metod złożonych, które zawierają wiele testów, tak aby niektóre gwarantowane długoterminowe wskaźniki awarii dla związku pozostały.
Jeśli przeprowadzisz pojedynczy eksperyment ze 100 testami i poinformujesz, że 5 z nich wypowiedziało się przeciw zeru, twierdząc w ten sposób, że zaobserwowałeś prawdziwy wynik, nikt nie będzie pod wrażeniem, wiedząc, że średnio spośród 100 testów prawdziwych zer, 5% będzie odrzucać; zastosowana metoda „przeprowadź 100 testów i zgłoś, czy którykolwiek z nich spełnia próg 5%”, ma wyższy wskaźnik awaryjności niż 5%. W związku z tym możesz wybrać kontrolę dla wielu porównań i zgłosić, że np. 2 na 100 testów miało wartości p niższe niż (5/100 == 0,05)%. Teraz stosujesz metodę, która ponownie ma gwarantowany wskaźnik niepowodzenia (w przypadku błędu zgłoszenia co najmniej jednego znaczącego testu, mimo że żadne hipotezy nie są fałszywe) w wysokości 5%.
źródło