W ciągu ostatnich kilku lat różni uczeni podnieśli szkodliwy problem testowania hipotez naukowych, nazwany „stopniem swobody badacza”, co oznacza, że naukowcy mają podczas swojej analizy wiele wyborów, które mogą wpływać na znalezienie wartości p <5%. Te niejednoznaczne wybory to na przykład, który przypadek należy uwzględnić, który przypadek jest sklasyfikowany jako odstający, uruchamiając liczne specyfikacje modelu, dopóki coś się nie pojawi, nie publikuje wyników zerowych itp. (Artykuł, który wywołał tę debatę w psychologii jest tutaj , zobacz popularny artykuł Slate i następną debatę Andrew Gelmana tutaj , a magazyn Time również porusza ten temat tutaj .)
Po pierwsze , jedno pytanie wyjaśniające:
Czas magazyn napisał
„Moc 0,8 oznacza, że spośród dziesięciu przetestowanych prawdziwych hipotez wykluczone zostaną tylko dwie, ponieważ ich skutki nie są uwzględniane w danych;”
Nie jestem pewien, jak to pasuje do definicji funkcji mocy, którą znalazłem w podręczniku, co oznacza prawdopodobieństwo odrzucenia wartości null jako funkcji parametru . Z różnym mamy różną moc, więc nie do końca rozumiem powyższy cytat.θ
Po drugie , niektóre implikacje badawcze:
W mojej dziedzinie nauk politycznych / ekonomii uczeni po prostu wykorzystują wszystkie dostępne dane z danego roku. Czy zatem nie powinniśmy się tym przejmować próbami majstrowania?
Czy problem z uruchomieniem wielu testów, ale zgłaszaniem tylko jednego modelu, można rozwiązać po prostu przez fakt, że ktoś inny w tej dziedzinie ponownie przetestuje Twój artykuł i od razu cię powali za brak wiarygodnych wyników? Przewidując to, uczeni w mojej dziedzinie chętniej dołączą
robustness check
sekcję, w której pokazują, że specyfikacja wielu modeli nie zmienia wyniku. Czy to wystarczy?Andrew Gelman i inni podnoszą kwestię, że bez względu na dane, zawsze można znaleźć i opublikować jakiś „wzorzec”, którego tak naprawdę nie ma. Nie powinno to jednak stanowić problemu, biorąc pod uwagę fakt, że jakikolwiek empiryczny „wzorzec” musi być poparty teorią, a rywalizujące teorie w ramach dyscypliny po prostu zaangażują się w debatę / wyścig, aby ustalić, który obóz może znaleźć więcej „wzorców” w różnych miejscach. Jeśli wzór jest naprawdę fałszywy, wówczas podstawowa teoria zostanie szybko obalona, gdy nie będzie podobnego wzoru w innych próbkach / ustawieniach. Czy nie tak postępuje nauka?
Zakładając, że obecny trend czasopism o zerowym wyniku faktycznie rozkwitnie, czy istnieje sposób na zebranie razem wszystkich zerowych i pozytywnych wyników i wyciągnięcie wniosków na temat teorii, którą wszyscy próbują przetestować?
Odpowiedzi:
Zamiast używać wartości p do oceny roszczeń, powinniśmy postępować zgodnie z radą Roberta Abelsona i stosować kryteria MAGIC:
Więcej informacji na temat Abelsona znajduje się w mojej recenzji jego książki
I powinniśmy koncentrować się na rozmiarach efektów, a nie na wartościach p w wynikach statystycznych (z możliwym wyjątkiem niektórych rodzajów eksploracji danych, na których w ogóle nie jestem ekspertem). Rozmiary efektów należy oceniać w kontekście:
Statystyk / analityk danych nie powinien być jakąś dziwną osobą, używaną jak czarna skrzynka, w której umieszczane są dane i z których pobierane są wartości p; powinien on / ona być współpracownikiem w badaniach mających na celu uzasadnienie argumentu na temat znaczenia pewnego zestawu danych w kontekście pewnej dziedziny, biorąc pod uwagę obecne teorie (lub ich brak) i aktualne dowody (lub ich brak).
Niestety, takie podejście wymaga przemyślenia badaczy merytorycznych, analityka danych i każdego, kto przegląda wyniki (czy to spiczasty szef, komitet rozprawy, redaktor czasopisma czy ktokolwiek). Co dziwne, nawet naukowcy wydają się być przeciwni tego rodzaju myślom.
Więcej informacji na temat moich poglądów znajduje się w artykule, który napisałem w Sciences360.
źródło
Dziedzina nauk statystycznych zajmowała się tymi zagadnieniami od samego początku. Ciągle powtarzam, że rolą statystyki jest zapewnienie, aby poziom błędu typu 1 pozostał stały. Oznacza to, że nie można wyeliminować ryzyka wyciągnięcia fałszywie pozytywnych wniosków, ale można je kontrolować. Powinno to zwrócić naszą uwagę na niezwykle dużą liczbę prowadzonych badań naukowych, a nie na filozofię i etykę ogólnej praktyki statystycznej. Za każdy niesamowity (niewiarygodny) wynik, który pojawił się w mediach (lub w polityce rządu), co najmniej 19 innych niewiarygodnych wyników zostało zestrzelonych za ich nieważne ustalenia.
Rzeczywiście, jeśli pójdziesz na, powiedzmy, clintrials.gov, zauważysz, że istnieje (dla prawie każdego wskazania choroby) znacznie ponad 1000 badań klinicznych dla środków farmaceutycznych trwających obecnie w USA. Oznacza to, że przy fałszywie dodatnim poziomie błędu 0,001 średnio co najmniej 1 lek zostanie umieszczony na półkach, co nie ma wpływu. Ważność 0,05 jako potwierdzonego progu istotności statystycznej była kwestionowana wielokrotnie. Jak na ironię, tylko statystycy czują się niekomfortowo przy użyciu 1/20 fałszywie dodatniego poziomu błędu, podczas gdy interesariusze finansowi (PI lub Merck) będą wytrwale podążać za przekonaniami bez względu na wyniki in vitro, dowody teoretyczne lub siłę wcześniejszych dowodów. Szczerze, ta wytrwałość to udana i godna pochwały osobowość wielu osób, które odniosły sukces w rolach niestatystycznych. Na ogół siedzą oni nad statystykami, w swoich odpowiednich totemach, którzy mają tendencję do wywierania nacisku na tę wytrwałość.
Myślę, że przedstawiony przez ciebie czas jest całkowicie błędny. Moc to prawdopodobieństwo odrzucenia hipotezy zerowej, biorąc pod uwagę jej fałsz. Co ważniejsze, zależy to od tego, jak „fałszywa” jest hipoteza zerowa (która z kolei zależy od mierzalnego rozmiaru efektu). Rzadko mówię o mocy poza kontekstem efektu, który uznalibyśmy za „interesujący” do wykrycia. (na przykład 4-miesięczne przeżycie po chemioterapeutycznym leczeniu raka trzustki w stadium 4 nie jest interesujące, dlatego nie ma powodu, aby rekrutować 5000 osób do badania fazy 3).
Aby odpowiedzieć na zadane pytania
???
Wielokrotność jest trudna, ponieważ nie prowadzi do oczywistej reguły decyzyjnej dotyczącej sposobu obsługi danych. Załóżmy na przykład, że interesuje nas prosty test średniej różnicy. Pomimo nieskończonych protestów moich kolegów łatwo jest wykazać, że test t jest dobrze skalibrowany w celu wykrycia różnic średnich niezależnie od rozkładu próbkowania danych. Załóżmy, że naprzemiennie podążaliśmy ich ścieżką. Rozpoczną od przetestowania normalności przy użyciu jakiegoś wariantu dobrze znanego testu dystrybucyjnego (powiedzmy kalibracji qqplot). Jeśli dane wydają się wystarczająco nienormalne, pytają, czy dane następują po jakiejkolwiek dobrze znanej transformacji, a następnie stosują transformację Boxa Coxa, aby określić transformację mocy (ewentualnie logarytmiczną), która maksymalizuje entropię. Jeśli pojawi się oczywista wartość liczbowa, użyją tej transformacji. Jeśli nie, użyją testu Wilcoxona „bez dystrybucji”. W przypadku tej sekwencji zdarzeń ad hoc nie mogę zacząć mieć nadziei, jak obliczyć kalibrację i moc dla prostego testu średnich różnic, gdy wystarczyłby prosty, głupi test t. Podejrzewam, że takie głupie czyny można powiązać matematycznie z superwydajnym oszacowaniem Hodge'a: estymatorami, które mają wysoką moc pod określoną hipotezą, którą chcemy być prawdą. Niemniej jednak ten proces jest superadekwatne oszacowanie: estymatory, które są dużą mocą pod określoną hipotezą, że chcemy być prawdą. Niemniej jednak ten proces jest superadekwatne oszacowanie: estymatory, które są dużą mocą pod określoną hipotezą, że chcemy być prawdą. Niemniej jednak ten proces jestnie statystyczny, ponieważ poziom fałszywie dodatnich błędów nie był kontrolowany.
Pomysł, że trendy można „odkryć” błędnie w dowolnym losowym zbiorze danych, prawdopodobnie wywodzi się z dobrze napisanego artykułu Martina zwanego „Siatką statystyczną Munchaesena” . Jest to bardzo pouczająca lektura i pochodzi z 1984 roku, zanim narodziło się nam złote cielę uczenia maszynowego, tak jak go obecnie znamy. Rzeczywiście poprawnie sformułowana hipoteza jest możliwa do sfalsyfikowania, ale błędy typu 1 stały się znacznie bardziej kosztowne w naszym społeczeństwie opartym na danych niż kiedykolwiek wcześniej. Rozważmy na przykład sfałszowane dowody badań anty-szczepionkowych, które doprowadziły do masowej sekwencji zgonów krztuśca. Wyniki, które odrzuciły publiczną defenestrację szczepionek, zostały połączone w jednym badaniu(co, choć błędne, nie zostało potwierdzone badaniami zewnętrznymi). Istnieje etyczny impuls do przeprowadzania wyników i zgłaszania siły dowodów uczciwości wobec dobra. Jak silny jest dowód? Ma to niewiele wspólnego z uzyskaną wartością p, ale wartość p, o której mówiłeś, że nazwiesz znaczącą. I pamiętaj, że fałszowanie danych zmienia wartość p, nawet jeśli w końcowym teście potwierdzającym zgłoszono coś innego (często znacznie mniejszego).
TAK! W metaanalizach opublikowanych przez czasopisma, takie jak raport Cochrane, wyraźnie widać, że rozkład wyników testu wygląda bardziej dwumodalnie niż noraml, a jedynie pozytywne i negatywne wyniki przekształcają się w czasopisma. Dowody te są absolutnie szalone i mylące dla każdego w praktyce klinicznej. Jeśli zamiast tego opublikujemy wyniki zerowe (pochodzące z badań, których wynikami bylibyśmy zainteresowani, niezależnie od tego, jakie będą ), możemy spodziewać się, że metaanaliza faktycznie przedstawi dowody, które są znaczące i reprezentatywne.
źródło
Po pierwsze, nie jestem statystykiem, po prostu badaczem, który analizował to przez ostatnie lata, aby dowiedzieć się, dlaczego metody, które obserwuję stosowane są wokół mnie, tak bardzo brakuje i dlaczego tak wiele zamieszania w odniesieniu do podstawowych pojęć, takich jak „co” jest wartością p? ” Dam swoją perspektywę.
Moc jest funkcją θ, wariancji i wielkości próbki. Nie jestem pewien, co to za zamieszanie. Również w wielu przypadkach, w których stosuje się testowanie istotności, hipoteza zerowa średniej1 = średnia2 jest zawsze fałszywa. W tych przypadkach znaczenie jest tylko funkcją wielkości próby. Proszę przeczytać „Testy teorii w psychologii i fizyce: paradoks metodologiczny” Paula Meehla, wyjaśnił mi wiele rzeczy i nigdy nie spotkałem się z odpowiednią odpowiedzią. Paul Meehl ma kilka innych artykułów na ten temat, które można znaleźć, wyszukując jego imię.
Jeśli czytasz artykuł Simmons 2011, jest to tylko jedna z wymienionych technik „hakowania p”. Jeśli prawdą jest, że istnieje tylko jeden zestaw danych i nikt nie wybiera z niego selektywnych próbek, to chyba nie ma miejsca na zwiększenie wielkości próbki.
Gdyby replikacja odbywała się bez stronniczości publikacji, nie byłoby potrzeby „dzienników o zerowym wyniku”. Powiedziałbym, że sekcja kontroli niezawodności jest dobra, ale nie wystarczająca w przypadku, gdy naukowcy nie opublikują wyników, które uważają za nieważne. Nie uważałbym również wyniku za solidny tylko dlatego, że wiele technik analizy tych samych danych doszło do tego samego wniosku. Solidny wynik to taki, który prawidłowo prognozuje wpływ / korelację / etc na nowe dane .
Replikacja nie otrzymuje p <0,05 za każdym razem. Teorię należy uznać za bardziej wiarygodną, jeśli przewiduje inny efekt / korelację / itp. Niż zastosowany w pierwszym badaniu. Nie odnoszę się do obecności efektu lub korelacji, ale dokładną wartość lub niewielki zakres wartości w porównaniu z możliwym zakresem wartości. Obecność efektu zwiększonego / zmniejszonego lub korelacji dodatniej / ujemnej jest 100% prawdopodobna w przypadku fałszywej hipotezy zerowej. Czytaj Meehl.
Nauka nie może funkcjonować poprawnie, jeśli badacze nie opublikują wyników o wartości zerowej. Również fakt, że wzór nie został wykryty w drugiej próbce / ustawieniu, nie oznacza, że nie istnieje on w warunkach wstępnego badania.
To byłaby metaanaliza . W tym przypadku nie ma nic szczególnego w pustych wynikach poza tym, że badacze nie publikują ich, ponieważ wartości p były powyżej arbitralnego progu. W przypadku błędu systematycznego publikacji metaanaliza jest niewiarygodna, podobnie jak cała literatura cierpiąca na błąd systematyczny publikacji. Chociaż może być użyteczna, metaanaliza jest o wiele gorsza do oceny teorii niż dokładna prognoza, która jest następnie testowana. Odchylenie publikacji nie ma znaczenia tak długo, jak długo pojawiają się nowe prognozy i są one powielane przez niezależne grupy.
źródło
Ujmę to po prostu, ponieważ testowanie zerowej hipotezy tak naprawdę dotyczy tylko hipotezy zerowej. Ogólnie rzecz biorąc, hipoteza zerowa nie jest zwykle przedmiotem zainteresowania i może nawet nie być „status quo” - szczególnie w przypadku testowania hipotez typu regresyjnego. Często w naukach społecznych nie ma status quo, więc hipoteza zerowa może być dość dowolna. Ma to ogromną różnicę w analizie, ponieważ punkt początkowy jest niezdefiniowany, więc różne badania zaczynają się od innej hipotezy zerowej, najprawdopodobniej na podstawie wszelkich dostępnych danych. Porównaj to z czymś takim, jak prawa ruchu Newtona - sensownie jest przyjąć to za hipotezę zerową i spróbuj znaleźć lepsze teorie od tego punktu początkowego.
Ponadto wartości p nie obliczają prawidłowego prawdopodobieństwa - nie chcemy wiedzieć o prawdopodobieństwach ogona, chyba że hipoteza alternatywna jest bardziej prawdopodobna, gdy zbliżasz się do ogonów. To, czego tak naprawdę chcesz, to to, jak dobrze teoria przewiduje to, co faktycznie było widziane. Załóżmy na przykład, że przewiduję, że istnieje 50% szans na „lekki prysznic”, a mój konkurent przewiduje, że istnieje 75% szansy. To okazuje się słuszne i obserwujemy lekki deszcz. Teraz, kiedy zdecydujesz, która osoba pogodowa jest poprawna, nie powinieneś dawać mojej prognozie dodatkowego uznania za to, że daje 40% szansy na „burzę”, ani nie odbierać mojego konkurenta za dawanie „burzy” 0% szansy.
Jeśli dane są niemożliwe zważywszy, że jest fałszywe, a następnie i stajemy się pewni . Wartość p zazwyczaj daje licznik (lub jego przybliżenie / transformację). Należy jednak zauważyć, że mała wartość p stanowi dowód na wartość zerową tylko wtedy, gdy istnieje alternatywna hipoteza pasująca do danych. Możesz wymyślić sytuacje, w których wartość p wynosząca faktycznie zapewnia wsparcie dla hipotezy zerowej - tak naprawdę zależy to od alternatywy.H BF=∞ H 0.001
Istnieje dobrze znany i łatwo niezrozumiały przykład empiryczny, w którym moneta jest razy, a liczba głów wynosi - nieco mniej niż połowa. Model zerowy to a alternatywą jest i dla marginalnego modelu (DU = dyskretny jednolity). Wartość p dla hipotezy zerowej jest bardzo mała , więc odrzuć zerową i opublikuj, prawda? Ale spójrz na współczynnik Bayesa, podany przez:104,490,000 52,263,471 y∼Bin(n,0.5) y|θ∼Bin(n,θ) θ∼U(0,1) p = 0,00015y∼BetaBin(n,1,1)∼DU(0,…,n) p=0.00015
Jak to może być? Współczynnik Bayesa wspiera hipotezę zerową pomimo małej wartości p? Cóż, spójrz na alternatywę - dało to prawdopodobieństwo zaobserwowanej wartości - alternatywa nie zapewnia dobrego wyjaśnienia faktów - więc zero jest bardziej prawdopodobne, ale tylko względem alternatywy . Zauważ, że wartość null robi tylko nieznacznie lepiej niż to - . Ale to wciąż lepsze niż alternatywa.0,000000111n+1=0.0000000096 0.00000011
Jest to szczególnie prawdziwe w przypadku krytykowanym przez Gelmana - przetestowano tylko tak naprawdę jedną hipotezę i nie zastanawiano się zbytnio nad: a) jakie są alternatywne wyjaśnienia (w szczególności na temat mylących i nie kontrolowanych efektów), b) ile kosztują alternatywy poparte wcześniejszymi badaniami, a co najważniejsze, c) jakie przewidywania czynią (jeśli w ogóle), które zasadniczo różnią się od wartości zerowej?
Zauważ jednak, że jest niezdefiniowany i zasadniczo reprezentuje wszystkie inne hipotezy zgodne z wcześniejszymi informacjami. Jedynym sposobem, w jaki naprawdę można właściwie przetestować hipotezy, jest określenie zakresu alternatyw , które zamierzasz porównać. I nawet jeśli to zrobisz, powiedzmy, że masz , możesz zgłosić tylko fakt, że dane obsługują stosunku do tego, co określiłeś. Jeśli pominiesz ważną hipotezę z zestawu alternatyw, możesz spodziewać się nonsensownych rezultatów. Dodatkowo dana alternatywa może okazać się znacznie lepsza niż inne, ale nadal mało prawdopodobna. Jeśli masz jeden test, w którym wartość p wynosi H1,…,HKHk0,010,1H¯¯¯¯¯ H1,…,HK Hk 0.01 ale sto różnych testów, w których wartość p wynosi , jest znacznie bardziej prawdopodobne, że „najlepsza hipoteza” (najlepsza ma lepsze konotacje niż prawda) faktycznie pochodzi z grupy „prawie znaczących” wyników.0.1
Najważniejszą kwestią do podkreślenia jest to, że hipoteza nigdy nie może istnieć w oderwaniu od alternatyw. Ponieważ po określeniu teorii / modeli , zawsze możesz dodać nową hipotezę W efekcie tego rodzaju hipoteza jest zasadniczo tym, co rozwija naukę - ktoś ma nowy pomysł / wyjaśnienie jakiegoś efektu, a następnie testuje tę nową teorię pod kątem obecnego zestawu alternatyw . Jego vs a nie tylko vs . Wersja uproszczona ma zastosowanie tylko wtedy, gdy istnieje bardzo silnie wspierana hipoteza wH K + 1 = Coś jeszcze nie pomyślano o H K + 1 H 1 , … , H K H 0 H A H 1 , … , H KK
źródło