Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi:
- analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec;
- niedostosowanie się do wielokrotnych testów , w szczególności testów post-hoc i niezgłoszenie przeprowadzonych testów, które nie były znaczące;
- wypróbowanie różnych testów tej samej hipotezy , np. zarówno testu parametrycznego, jak i nieparametrycznego ( w tym wątku jest kilka dyskusji na ten temat ), ale zgłaszanie tylko najbardziej znaczących;
- eksperymentowanie z włączaniem / wyłączaniem punktów danych , aż do uzyskania pożądanego rezultatu. Jedna z okazji pojawia się, gdy „wartości odstające od czyszczenia danych”, ale także przy zastosowaniu niejednoznacznej definicji (np. W badaniu ekonometrycznym „krajów rozwiniętych”, różne definicje dają różne zestawy krajów) lub jakościowych kryteriów włączenia (np. W metaanalizie , może to być precyzyjnie wyważony argument, czy metodologia danego badania jest wystarczająco solidna, aby go uwzględnić);
- poprzedni przykład dotyczy opcjonalnego zatrzymania , tj. analizy zestawu danych i podjęcia decyzji, czy gromadzić więcej danych, czy też nie, w zależności od zebranych danych („jest to prawie znaczące, zmierzmy jeszcze trzech studentów!”) bez uwzględnienia tego w analizie;
- eksperymenty podczas dopasowywania modeli , w szczególności towarzyszące zmienne towarzyszące, ale także dotyczące transformacji danych / formy funkcjonalnej.
Więc wiemy, że hakowanie p można wykonać. Jest często wymieniany jako jeden z „niebezpieczeństw wartości p ” i został wspomniany w raporcie ASA na temat istotności statystycznej, omawianym tutaj w Cross Validated , więc wiemy również, że jest to zła rzecz. Chociaż pewne wątpliwe motywacje i (szczególnie w konkursie na publikację akademicką) zachęty przynoszą efekt przeciwny do zamierzonego, podejrzewam, że trudno jest zorientować się, dlaczego tak się dzieje, czy to umyślne nadużycia, czy zwykła ignorancja. Ktoś zgłaszający p- wartości z regresji krokowej (ponieważ znajduje procedury krokowe „produkuje dobre modele”, ale nie zdaje sobie sprawy z rzekomego p-wartości są unieważnione) jest w tym drugim obozie, ale efekt jest wciąż p- hakowanie pod ostatnim z moich punktów powyżej.
Z pewnością istnieją dowody na to, że „ hacking p ” jest „tam”, np. Head i wsp. (2015) szukają znaków ostrzegawczych infekujących literaturę naukową, ale jaki jest obecny stan naszych dowodów na jego temat? Wiem, że podejście przyjęte przez Heada i in. Nie obyło się bez kontrowersji, więc obecny stan literatury lub ogólne myślenie w środowisku akademickim byłoby interesujące. Na przykład, czy mamy pojęcie o:
- Jak powszechne jest to zjawisko i w jakim stopniu możemy odróżnić jego występowanie od stronniczości publikacji ? (Czy to rozróżnienie ma w ogóle znaczenie?)
- Czy efekt jest szczególnie ostry na granicy ? Czy na przykład obserwuje się podobne efekty przy , czy też widzimy wpływ na całe zakresy wartości p ?
- Czy wzorce hakowania p są różne w różnych dziedzinach akademickich?
- Czy mamy pojęcie, które z mechanizmów hakowania p (niektóre z nich wymieniono w punktach powyżej) są najczęstsze? Czy niektóre formy okazały się trudniejsze do wykrycia niż inne, ponieważ są „lepiej zamaskowane”?
Bibliografia
Head, ML, Holman, L., Lanfear, R., Kahn, AT i Jennions, MD (2015). Zakres i konsekwencje p- hakowania w nauce . PLoS Biol , 13 (3), e1002106.
źródło
Odpowiedzi:
STRESZCZENIE: jeśli „hakowanie p” ma być szeroko rozumiane jako ścieżki rozwidlenia la Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.
Andrew Gelman lubi pisać na ten temat i ostatnio publikuje na ten temat wiele artykułów na swoim blogu. Nie zawsze się z nim zgadzam, ale lubię swoją perspektywę na -hacking. Oto fragment wstępu do dokumentu Garden of Forking Paths (Gelman i Loken 2013; wersja ukazała się w American Scientist 2014; patrz także krótki komentarz Gelmana do oświadczenia ASA), podkreślając moje:p
Tak więc: Gelman nie lubi terminu hakowanie p, ponieważ sugeruje, że badacze aktywnie oszukują. Podczas gdy problemy mogą wystąpić po prostu dlatego, że badacze wybierają test do wykonania / zgłoszenia po spojrzeniu na dane, tj. Po przeprowadzeniu analizy eksploracyjnej.
Z pewnym doświadczeniem w pracy w biologii mogę śmiało powiedzieć, że wszyscy to robią. Wszyscy (łącznie ze mną) gromadzą pewne dane, opierając się jedynie na niejasnych hipotezach a priori, przeprowadzają szeroko zakrojone analizy eksploracyjne, przeprowadzają różne testy istotności, gromadzą więcej danych, uruchamiają i ponownie uruchamiają testy, a na koniec zgłaszają pewne wartości ostatecznym manuskrypcie. Wszystko to dzieje się bez aktywnego oszukiwania, głupiego zbierania wiśni w stylu xkcd-żelków i świadomego hakowania czegokolwiek.p
Jeśli więc „hakowanie p” należy rozumieć szeroko jako rozwidlające się ścieżki Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.
Jedynymi wyjątkami, które przychodzą na myśl, są w pełni wstępnie zarejestrowane badania replikacji w psychologii lub w pełni zarejestrowane badania medyczne.
Konkretne dowody
Zabawne jest to, że niektórzy badacze badali, że wielu przyznało się do hakowania ( John i in. 2012, Pomiar rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy ):
Poza tym wszyscy słyszeli o tzw. „Kryzysie replikacji” w psychologii: ponad połowa ostatnich badań opublikowanych w najlepszych czasopismach psychologicznych nie powiela się ( Nosek i in. 2015, Szacowanie odtwarzalności nauk psychologicznych ). (To badanie było ostatnio ponownie na wszystkich blogach, ponieważ w wydaniu Science z marca 2016 r. Opublikowano Komentarz próbujący obalić Noska i in., A także odpowiedź Noska i in. Dyskusja była kontynuowana gdzie indziej, patrz post Andrew Gelmana i RetractionWatch post , do którego prowadzi. Grzecznie mówiąc, krytyka nie jest przekonująca).
Aktualizacja z listopada 2018 r .: Kaplan i Irvin, 2017, Prawdopodobieństwo nieważności dużych badań klinicznych NHLBI wzrosło w czasie.
Head i in. 2015 r
Nie słyszałem o Head et al. uczyć się wcześniej, ale teraz spędziłem trochę czasu na przeglądaniu otaczającej literatury. Przyjrzałem się również ich surowym danym .
Head i in. pobrałem wszystkie dokumenty Open Access z PubMed i wyodrębniłem wszystkie wartości p zgłoszone w tekście, otrzymując 2,7 mln wartości p. Spośród nich 1,1 mln zgłoszono jako a nie jako . Spośród nich Head i in. losowo przyjął jedną wartość p na papier, ale nie wydaje się to zmieniać rozkładu, więc oto jak wygląda rozkład wszystkich 1,1 mln wartości (od do ):p=a p<a 0 0.06
Użyłem szerokości przedziału i wyraźnie widać wiele przewidywalnych zaokrągleń w raportowanych wartościach . Teraz Head i in. wykonaj następujące czynności: porównują liczbę wartości w przedziale i w przedziale ; poprzednia liczba okazuje się (znacznie) większa i traktują to jako dowód hakowania . Jeśli się zezuje, widać to na mojej figurze.0.0001 p p (0.045,0.5) (0.04,0.045) p
Uważam to za wyjątkowo nieprzekonujące z jednego prostego powodu. Kto chce zgłaszać swoje wyniki przy ? W rzeczywistości wydaje się, że wiele osób robi dokładnie to, ale nadal wydaje się naturalne, że należy unikać tej niezadowalającej wartości granicznej i zgłaszać inną znaczącą cyfrę, np. (chyba że ). Tak więc pewien nadmiar wartości bliskich, ale nie równych można wytłumaczyć preferencjami zaokrąglania badacza.p=0.05 p=0.048 p=0.052 p 0.05
Poza tym efekt jest niewielki .
(Jedyny silny efekt, jaki widzę na tej figurze, to wyraźny spadek gęstości wartości zaraz po . Wyraźnie wynika to z błędu systematycznego publikacji).p 0.05
Chyba że coś przeoczyłem, Head i in. nawet nie omawiajcie tego potencjalnego alternatywnego wyjaśnienia. Nie prezentują również histogramu wartości .p
Istnieje wiele artykułów krytykujących Head et al. W tym niepublikowanym rękopisie Hartgerink twierdzi, że Head i in. powinno zawierać i w ich stosunku (a jeśli miały one nie znalazły skutek). Nie jestem tego pewny; nie brzmi to zbyt przekonująco. Byłoby znacznie lepiej, gdybyśmy mogli jakoś sprawdzić rozkład „surowych” wartości bez żadnego zaokrąglania.p=0.04 p=0.05 p
Rozkłady -values bez zaokrąglaniap
W tym artykule PeerJ 2016 (przedruk opublikowany w 2015 r.) Ten sam Hartgerink i in. wyodrębnij wartości p z wielu artykułów w najlepszych czasopismach psychologicznych i zrób dokładnie to: obliczają dokładne wartości z podanych wartości statystycznych -, -, - itd .; ten rozkład jest wolny od jakichkolwiek zaokrąglających artefaktów i nie wykazuje żadnego wzrostu w kierunku 0,05 (rysunek 4):p t F χ2
Bardzo podobne podejście przyjmuje Krawczyk 2015 w PLoS One, który wyodrębnia 135 tys. Wartości z najlepszych czasopism o psychologii eksperymentalnej. Oto, jak wygląda rozkład zgłaszanych (po lewej) i ponownie obliczonych (po prawej) wartości :p p
Różnica jest uderzająca. Lewy histogram pokazuje niektóre dziwne rzeczy, które dzieją się wokół , ale na prawym zniknęły. Oznacza to, że te dziwne rzeczy wynikają z preferencji ludzi dotyczących zgłaszania wartości około a nie z powodu hakowania .p=0.05 p≈0.05 p
Mascicampo i Lalande
Wydaje się, że pierwszymi, którzy zauważyli domniemaną nadwyżkę wartości nieco poniżej 0,05, były Masicampo i Lalande 2012 , patrząc na trzy najlepsze czasopisma z psychologii:p
Wygląda to imponująco, ale Lakens 2015 ( preprint ) w opublikowanym komentarzu twierdzi, że wydaje się to imponujące tylko dzięki wprowadzającemu w błąd wykładniczemu dopasowaniu. Zobacz także Lakens 2015, na temat wyzwań związanych z wyciąganiem wniosków z wartości p nieco poniżej 0,05 i zawartych w nich odniesień.
Ekonomia
Brodeur i in. 2016 (link do przedruku z 2013 r.) To samo dotyczy literatury ekonomicznej. Przyjrzyj się trzem dziennikom ekonomicznym, wyodrębnij 50 000 wyników testu, przekonwertuj wszystkie z nich na wyniki (wykorzystując zgłoszone współczynniki i standardowe błędy, jeśli to możliwe i używając wartości jeśli tylko zostały zgłoszone) i uzyskaj następujące informacje:z p
Jest to nieco mylące, ponieważ małe wartości są po prawej stronie, a duże wartości - po lewej. Jak piszą autorzy w streszczeniu: „Rozkład wartości p wykazuje kształt wielbłąda z licznymi wartościami p powyżej 0,25” i „doliną między 0,25 a .10”. Twierdzą, że ta dolina jest oznaką czegoś podejrzanego, ale jest to tylko pośredni dowód. Może to być również po prostu wynikiem selektywnego raportowania, gdy duże wartości p powyżej 0,25 są zgłaszane jako pewne dowody braku efektu, ale wartości p między .1 a .25 nie są ani tu ani tam, i mają tendencję do być pominiętym. (Nie jestem pewien, czy ten efekt występuje w literaturze biologicznej, czy nie, ponieważ powyższe wykresy skupiają się na przedziale ).p p p < 0,05p<0.05
Fałszywie uspokajający?
Na podstawie wszystkich powyższych, mój wniosek jest taki, że nie widzę żadnych mocnych dowodów -hacking w rozkładów -value całej literaturze biologicznej / psychologiczny jako całości. Istnieje wiele dowodów selektywnego raportowania, publikacji uprzedzeń, zaokrąglając -values w dół do i innych zabawnych efektów zaokrąglania, ale nie zgadzam się z wnioskami głowy i wsp .: brak jest podejrzany guz poniżej .p p p 0,05 0,050.05 0.05
Uri Simonsohn twierdzi, że jest to „fałszywie uspokajające” . Cóż, w rzeczywistości cytuje te dokumenty bezkrytycznie, ale zauważa, że „większość wartości p jest znacznie mniejsza” niż 0,05. Potem mówi: „To uspokajające, ale fałszywie uspokajające”. A oto dlaczego:
To ma sens. Spoglądanie na wszystkie zgłoszone wartości jest zbyt głośne. Papier krzywej Uri ( Simonsohn i in. 2013 ) ładnie pokazuje, co można zobaczyć, jeśli spojrzy się na starannie wybrane wartości krzywej. Wybrali 20 artykułów psychologicznych na podstawie niektórych podejrzanych słów kluczowych (a mianowicie autorzy tych artykułów zgłosili testy kontrolujące zmienną towarzyszącą i nie zgłosili tego, co się stanie bez kontroli dla niej), a następnie przyjęli tylko wartości , które testują główne ustalenia. Oto jak wygląda dystrybucja (po lewej):p p p pp p
Silne pochylenie w lewo sugeruje silne hakowanie .p
Wnioski
Powiedziałbym, że wiemy , że musi być dużo hakowania , głównie typu Forking Paths opisanego przez Gelmana; prawdopodobnie w takim stopniu, w jakim opublikowanych wartości nie można tak naprawdę uznać za wartość nominalną i czytelnik powinien je „zdyskontować” o znaczną część. Jednak takie podejście wydaje się dawać znacznie bardziej subtelne efekty niż zwykły wzrost ogólnego rozkładu wartości tuż poniżej i tak naprawdę nie można go wykryć za pomocą takiej tępej analizy.p p p 0,05 p 0.05
źródło
simply because the researches chose what test to perform/report after looking at the data
Tak; i problem jest nieunikniony, ponieważ obosieczny. Kiedy wybierana jest lepsza metoda dla danych - czy jest to przeładowanie tej konkretnej próby czy spotkanie technicznych wezwań tej populacji? Lub - usuwając wartości odstające - oszukuje populację, czy ją odzyskuje? Kto ostatecznie powie?Wykresy lejkowe były ogromną innowacją statystyczną, która sprawiła, że metaanaliza stała się poważna. Zasadniczo wykres lejkowy pokazuje znaczenie kliniczne i statystyczne na tym samym wykresie. Idealnie tworzyłyby kształt lejka. Jednak kilka metaanaliz wytworzyło wykresy lejkowe o silnym kształcie bimodalnym, w których badacze (lub wydawcy) selektywnie wstrzymywali wyniki, które były zerowe. W rezultacie trójkąt staje się szerszy, ponieważ w mniejszych badaniach o mniejszej mocy zastosowano bardziej drastyczne metody, aby „zachęcić” wyniki do osiągnięcia znaczenia statystycznego. Zespół Cochrane Report ma to do powiedzenia na ich temat .
Pierwszy wykres pokazuje symetryczny wykres przy braku stronniczości. Drugi pokazuje asymetryczny wykres w obecności zgłaszającego błędu. Trzeci pokazuje asymetryczny wykres w obecności uprzedzeń, ponieważ niektóre mniejsze badania (otwarte kółka) mają niższą jakość metodologiczną, a zatem dają przesadzone szacunki efektów interwencji.
Podejrzewam, że większość autorów nie zdaje sobie sprawy z metod, których używają do p-hackowania. Nie śledzą ogólnej liczby modeli, które pasują, stosując różne kryteria wykluczania lub wybierając różne zmienne dopasowania za każdym razem. Gdybym jednak musiał zlecić prosty proces, chciałbym, aby dopasować całkowitą liczbę modeli. Nie oznacza to, że mogą istnieć uzasadnione powody do ponownego uruchomienia modeli, na przykład właśnie przeprowadziliśmy analizę Alzheimera, nie wiedząc, że w próbce zebrano ApoE. Jajko na mojej twarzy, przerobiliśmy modele.
źródło