Zdecydowanie nie zgadzam się ze skokiem @fcoppens od uznania znaczenia korekty wielu hipotez w ramach jednego dochodzenia do twierdzenia, że „Z tego samego powodu obowiązuje to samo, jeśli kilka zespołów przeprowadzi te testy”.
Nie ma wątpliwości, że im więcej badań zostanie przeprowadzonych i im więcej hipotez zostanie przetestowanych, tym więcej wystąpi błędów typu I. Ale myślę, że tutaj jest zamieszanie co do znaczenia wskaźników błędu rodzinnego i ich zastosowania w rzeczywistej pracy naukowej.
Po pierwsze, pamiętaj, że korekty wielokrotnego testowania zwykle pojawiają się w porównaniach post-hoc, dla których nie sformułowano wstępnie sformułowanych hipotez. Nie jest wcale jasne, że te same korekty są wymagane, gdy istnieje mały wstępnie zdefiniowany zestaw hipotez.
Po drugie, „prawda naukowa” poszczególnych publikacji nie zależy od prawdziwości poszczególnych stwierdzeń zawartych w publikacji. Dobrze zaprojektowane badanie podchodzi do ogólnej hipotezy naukowej (w przeciwieństwie do statystyki) z wielu różnych perspektyw i łączy różne rodzaje wyników w celu oceny hipotezy naukowej . Każdy pojedynczy wynik można ocenić za pomocą testu statystycznego.
Jednak z argumentu @fcoppens, jeśli choć jeden z tych indywidualnych testów statystycznych popełni błąd typu I, prowadzi to do „fałszywej wiary w„ prawdę naukową ”. To jest po prostu złe.
„Prawda naukowa” hipotezy naukowej w publikacji, w przeciwieństwie do ważności pojedynczego testu statystycznego, na ogół pochodzi z kombinacji różnych rodzajów dowodów. Nacisk na wiele rodzajów dowodów sprawia, że trafność hipotezy naukowej jest solidna na pojedyncze błędy, które nieuchronnie się zdarzają. Gdy patrzę wstecz na moje 50 lub więcej publikacji naukowych, będę ciężko znaleźć jakikolwiek że pozostaje więc bez skazy w każdym szczególe jak @fcoppens wydaje się domagać się. Jeszcze mam podobnie ciężko znaleźć jakikolwiek gdzie naukowahipoteza była całkowicie błędna. Być może niekompletne; z pewnością stały się bez znaczenia dla późniejszych osiągnięć w tej dziedzinie. Ale nie „źle” w kontekście ówczesnego stanu wiedzy naukowej.
Po trzecie, argument ignoruje koszty popełnienia błędów typu II. Błąd typu II może zamknąć całe pola obiecujących badań naukowych. Gdyby przestrzegano zaleceń @fcoppens, poziomy błędu typu II znacznie wzrosłyby ze szkodą dla przedsięwzięcia naukowego.
Wreszcie zalecenie jest niemożliwe do zastosowania w praktyce. Jeśli przeanalizuję zestaw publicznie dostępnych danych, mogę nie mieć możliwości dowiedzenia się, czy ktoś go wykorzystał lub w jakim celu. Nie mam możliwości poprawienia testów hipotez innych osób. I jak twierdzę powyżej, nie powinnam.
Korekta „wielokrotnego testowania” jest konieczna za każdym razem, gdy „napompujesz błąd typu I”: np. Jeśli wykonasz dwa testy, każdy na poziomie ufności , a dla pierwszego testujemy zerowy przeciwko alternatywnemu i drugiej hipotezie porównaniu do .α=5% H(1)0 H(1)1 H(2)0 H(2)1
Wiemy zatem, że błędem typu I dla np. Pierwszej hipotezy jest prawdopodobieństwo fałszywego odrzucenia i jest to .H(1)0 α=5%
Jeśli wykonasz dwa testy, prawdopodobieństwo, że przynajmniej jeden z nich zostanie fałszywie odrzucony, jest równe 1 minus prawdopodobieństwo, że oba zostaną zaakceptowane, więc co dla jest równe , więc błąd pierwszego typu dotyczący co najmniej jednego fałszywego odrzucenia prawie się podwoił!1−(1−α)2 α=5% 9.75%
W testowaniu hipotez statystycznych można znaleźć dowody statystyczne na hipotezę alternatywną tylko poprzez odrzucenie wartości zerowej, odrzucenie wartości zerowej pozwala nam wnioskować, że istnieją dowody przemawiające za hipotezą alternatywną. (patrz także Co dalej, jeśli nie odrzucimy hipotezy zerowej? ).
Zatem fałszywe odrzucenie wartości zerowej daje nam fałszywe dowody, a więc fałszywe przekonanie o „prawdzie naukowej”. Właśnie dlatego należy unikać inflacji typu I (niemal dwukrotnego błędu typu I); wyższe błędy typu I sugerują więcej fałszywych przekonań, że coś zostało naukowo udowodnione . Dlatego ludzie „kontrolują” typ Ierror na poziomie rodzinnym.
Jeśli istnieje zespół badaczy, który przeprowadza wiele testów, to za każdym razem, gdy odrzucają hipotezę zerową, dochodzą do wniosku, że znaleźli dowody statystyczne potwierdzające prawdziwość naukową. Jednak z powyższego wynika, że o wiele więcej niż tych wniosków jest fałszywie przekonanych o „prawdzie naukowej”.5%
Zgodnie z tym samym rozumowaniem to samo dotyczy sytuacji, gdy kilka zespołów przeprowadza te testy (na tych samych danych).
Oczywiście powyższe ustalenia obowiązują tylko wtedy, gdy my zespoły pracujemy na tych samych danych . Czym różni się wtedy, gdy pracują na różnych próbkach?
Aby to wyjaśnić, weźmy prosty i bardzo nierealistyczny przykład. Nasza hipoteza zerowa jest taka, że populacja ma rozkład normalny, ze znanym a null stwierdza, że stosunku do . Weźmy poziom istotności .σ H0:μ=0 H1:μ≠0 α=5%
Nasza próbka („dane”) to tylko jedna obserwacja, więc odrzucimy wartość zerową, gdy obserwacja będzie większa niż lub mniejsza niż .1,96 σ - 1,96 σo 1.96σ −1.96σ
Popełniamy błąd typu I z prawdopodobieństwem ponieważ może się zdarzyć, że odrzucimy przypadkiem, rzeczywiście, jeśli jest prawdą (więc populacja jest normalna, a ), to jest (z prawda ) szansa, że ]. Więc nawet jeśli jest prawdą, istnieje szansa, że mamy pecha z danymi. H 0 H 0 μ = 0 H 0 o ∉ [ - 1,96 σ ; 1,96 σ H 05% H0 H0 μ=0 H0 o∉[−1.96σ;1.96σ H0
Jeśli więc użyjemy tych samych danych, może się zdarzyć, że wnioski z testów oprą się na próbce, która została narysowana przy „złej szansie”. W innej próbce kontekst jest inny.
źródło