Rodzinna granica błędów: czy ponowne wykorzystanie zestawów danych w różnych badaniach niezależnych pytań prowadzi do wielu problemów z testowaniem?

Jeśli zespół badaczy przeprowadzi wiele testów (hipotez) na danym zbiorze danych, istnieje obszerna literatura, w której stwierdza się, że powinni oni zastosować jakąś formę korekty do testów wielokrotnych (Bonferroni itp.), Nawet jeśli testy są niezależne. Moje pytanie brzmi: czy ta sama logika dotyczy wielu zespołów testujących hipotezy dotyczące tego samego zestawu danych? Powiedział inny sposób - jaka jest bariera dla rodzinnych obliczeń błędów? Czy badacze powinni ograniczać się do ponownego wykorzystywania zestawów danych wyłącznie do eksploracji?

hypothesis-testing multiple-comparisons toypajme
źródło

Odpowiedzi:

Zdecydowanie nie zgadzam się ze skokiem @fcoppens od uznania znaczenia korekty wielu hipotez w ramach jednego dochodzenia do twierdzenia, że „Z tego samego powodu obowiązuje to samo, jeśli kilka zespołów przeprowadzi te testy”.

Nie ma wątpliwości, że im więcej badań zostanie przeprowadzonych i im więcej hipotez zostanie przetestowanych, tym więcej wystąpi błędów typu I. Ale myślę, że tutaj jest zamieszanie co do znaczenia wskaźników błędu rodzinnego i ich zastosowania w rzeczywistej pracy naukowej.

Po pierwsze, pamiętaj, że korekty wielokrotnego testowania zwykle pojawiają się w porównaniach post-hoc, dla których nie sformułowano wstępnie sformułowanych hipotez. Nie jest wcale jasne, że te same korekty są wymagane, gdy istnieje mały wstępnie zdefiniowany zestaw hipotez.

Po drugie, „prawda naukowa” poszczególnych publikacji nie zależy od prawdziwości poszczególnych stwierdzeń zawartych w publikacji. Dobrze zaprojektowane badanie podchodzi do ogólnej hipotezy naukowej (w przeciwieństwie do statystyki) z wielu różnych perspektyw i łączy różne rodzaje wyników w celu oceny hipotezy naukowej . Każdy pojedynczy wynik można ocenić za pomocą testu statystycznego.

Jednak z argumentu @fcoppens, jeśli choć jeden z tych indywidualnych testów statystycznych popełni błąd typu I, prowadzi to do „fałszywej wiary w„ prawdę naukową ”. To jest po prostu złe.

„Prawda naukowa” hipotezy naukowej w publikacji, w przeciwieństwie do ważności pojedynczego testu statystycznego, na ogół pochodzi z kombinacji różnych rodzajów dowodów. Nacisk na wiele rodzajów dowodów sprawia, że trafność hipotezy naukowej jest solidna na pojedyncze błędy, które nieuchronnie się zdarzają. Gdy patrzę wstecz na moje 50 lub więcej publikacji naukowych, będę ciężko znaleźć jakikolwiek że pozostaje więc bez skazy w każdym szczególe jak @fcoppens wydaje się domagać się. Jeszcze mam podobnie ciężko znaleźć jakikolwiek gdzie naukowahipoteza była całkowicie błędna. Być może niekompletne; z pewnością stały się bez znaczenia dla późniejszych osiągnięć w tej dziedzinie. Ale nie „źle” w kontekście ówczesnego stanu wiedzy naukowej.

Po trzecie, argument ignoruje koszty popełnienia błędów typu II. Błąd typu II może zamknąć całe pola obiecujących badań naukowych. Gdyby przestrzegano zaleceń @fcoppens, poziomy błędu typu II znacznie wzrosłyby ze szkodą dla przedsięwzięcia naukowego.

Wreszcie zalecenie jest niemożliwe do zastosowania w praktyce. Jeśli przeanalizuję zestaw publicznie dostępnych danych, mogę nie mieć możliwości dowiedzenia się, czy ktoś go wykorzystał lub w jakim celu. Nie mam możliwości poprawienia testów hipotez innych osób. I jak twierdzę powyżej, nie powinnam.

EdM
źródło

Dałem to pytanie nagrodę, ponieważ chciałem postawić je „z góry”. Powodem, dla którego chciałem to zrobić, było to, że uważam, że nie ma wystarczającej uwagi i że - i najwyraźniej, jak doświadczyłem z moją odpowiedzią - nie ma już „dyskusji” na ten temat. Jak pokazuje, może to być interesująca dyskusja, więc otrzymasz (+1)

@fcoppens dziękuje za wniesienie tego „z góry”

EdM

Od tego postu natknąłem się na świetny artykuł na ten temat autorstwa Salzberga pt. „Porównywanie klasyfikatorów: pułapki, których należy unikać i zalecane podejście” ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97 porównywanie. pdf ). Doceniam dyskusję. Ten rodzaj pytań podnosi podział na statystyki i uczenie maszynowe / inne dziedziny zastosowania, które zostały omówione w tym poście: stats.stackexchange.com/questions/1194/ ... ....

toypajme

Artykuł Breimana również porusza ten temat: projecteuclid.org/euclid.ss/1009213726 . Mam nadzieję, że te artykuły mogą być łatwym źródłem informacji dla osób zainteresowanych bieżącymi badaniami i opublikowanymi dyskusjami na ten temat.

toypajme

Istnieje również następujący artykuł „ O wytwarzaniu i własności alfa w badaniach medycznych ”. Jest to oczywiście kontrowersyjny temat. Jednym z nielicznych przypadków, w których odpowiedź jest jasna, są roszczenia dotyczące etykiet farmaceutycznych dla produktów farmaceutycznych, w których dla badania medycznego występuje mniej więcej jeden . Gdy przejdziemy do publikacji naukowych, nie ma lepszego lub nikogo, kto mógłby egzekwować takie rzeczy.

α = 0.05

$\alpha=0.05$

Björn

Korekta „wielokrotnego testowania” jest konieczna za każdym razem, gdy „napompujesz błąd typu I”: np. Jeśli wykonasz dwa testy, każdy na poziomie ufności , a dla pierwszego testujemy zerowy przeciwko alternatywnemu i drugiej hipotezie porównaniu do . $\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

Wiemy zatem, że błędem typu I dla np. Pierwszej hipotezy jest prawdopodobieństwo fałszywego odrzucenia i jest to . $H_0^{(1)}$ $\alpha=5\%$

Jeśli wykonasz dwa testy, prawdopodobieństwo, że przynajmniej jeden z nich zostanie fałszywie odrzucony, jest równe 1 minus prawdopodobieństwo, że oba zostaną zaakceptowane, więc co dla jest równe , więc błąd pierwszego typu dotyczący co najmniej jednego fałszywego odrzucenia prawie się podwoił! $1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

W testowaniu hipotez statystycznych można znaleźć dowody statystyczne na hipotezę alternatywną tylko poprzez odrzucenie wartości zerowej, odrzucenie wartości zerowej pozwala nam wnioskować, że istnieją dowody przemawiające za hipotezą alternatywną. (patrz także Co dalej, jeśli nie odrzucimy hipotezy zerowej? ).

Zatem fałszywe odrzucenie wartości zerowej daje nam fałszywe dowody, a więc fałszywe przekonanie o „prawdzie naukowej”. Właśnie dlatego należy unikać inflacji typu I (niemal dwukrotnego błędu typu I); wyższe błędy typu I sugerują więcej fałszywych przekonań, że coś zostało naukowo udowodnione . Dlatego ludzie „kontrolują” typ Ierror na poziomie rodzinnym.

Jeśli istnieje zespół badaczy, który przeprowadza wiele testów, to za każdym razem, gdy odrzucają hipotezę zerową, dochodzą do wniosku, że znaleźli dowody statystyczne potwierdzające prawdziwość naukową. Jednak z powyższego wynika, że o wiele więcej niż tych wniosków jest fałszywie przekonanych o „prawdzie naukowej”. $5\%$

Zgodnie z tym samym rozumowaniem to samo dotyczy sytuacji, gdy kilka zespołów przeprowadza te testy (na tych samych danych).

Oczywiście powyższe ustalenia obowiązują tylko wtedy, gdy my zespoły pracujemy na tych samych danych . Czym różni się wtedy, gdy pracują na różnych próbkach?

Aby to wyjaśnić, weźmy prosty i bardzo nierealistyczny przykład. Nasza hipoteza zerowa jest taka, że populacja ma rozkład normalny, ze znanym a null stwierdza, że stosunku do . Weźmy poziom istotności . $\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

Nasza próbka („dane”) to tylko jedna obserwacja, więc odrzucimy wartość zerową, gdy obserwacja będzie większa niż lub mniejsza niż . $o$ $1.96\sigma$ $-1.96\sigma$

Popełniamy błąd typu I z prawdopodobieństwem ponieważ może się zdarzyć, że odrzucimy przypadkiem, rzeczywiście, jeśli jest prawdą (więc populacja jest normalna, a ), to jest (z prawda ) szansa, że ]. Więc nawet jeśli jest prawdą, istnieje szansa, że mamy pecha z danymi. $5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Jeśli więc użyjemy tych samych danych, może się zdarzyć, że wnioski z testów oprą się na próbce, która została narysowana przy „złej szansie”. W innej próbce kontekst jest inny.

Społeczność
źródło

Nie jestem fanem używania „dowodu” w odniesieniu do dowodów naukowych.

Alexis,

@Alexis: z pewnością dlatego, że angielski nie jest moim językiem ojczystym, ale myślałem, że „dowody” i „dowody” są bardziej lub bardziej synonimiczne, ale tak nie jest?

Formalny „dowód”, moim zdaniem, należy do matematyki. Lub, mniej formalnie, należy do orzecznictwa. Dla mnie dowód nie należy do nauki, ponieważ oznacza to koniec dociekań i początek dogmatów, a nauka zasadniczo dotyczy dociekań. Na przykład w języku angielskim (i USA) mamy retoryczną grę, w której osoby antyewolucyjne powiedzą: „ewolucja biologiczna jest tylko teorią i nie została naukowo udowodniona ”. Oczywiście sztuczka polega na tym, że słuchacze zapominają, że nauka nigdy nie dowodzi, a jedynie dostarcza dowodów.

Alexis,