40 000 artykułów neurobiologicznych może się mylić

67

Widziałem ten artykuł w „The Economist” na temat pozornie niszczącej pracy [1], podważającej „coś w rodzaju 40 000 opublikowanych badań [fMRI]”. Mówią, że błąd wynika z „błędnych założeń statystycznych”. Czytam artykuł i widzę, że jest to częściowo problem z wielokrotnymi korektami porównania, ale nie jestem ekspertem od fMRI i trudno mi go śledzić.

O jakich błędnych założeniach mówią autorzy ? Dlaczego poczyniono te założenia? Jakie są sposoby dokonywania tych założeń?

Z tyłu obliczeń koperty wynika, że ​​40 000 artykułów fMRI ma ponad miliard dolarów finansowania (pensja studencka, koszty operacyjne itp.).


[1] Eklund i wsp., Awaria klastra: Dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost wskaźników fałszywie dodatnich, PNAS 2016

R Greg Stacey
źródło
17
Zobacz także artykuł o fMRI martwego łososia. wired.com/2009/09/fmrisalmon
Sycorax
1
To naprawdę cienka linia, szczególnie w badaniu neuropatologii, ponieważ możesz całkowicie ograniczyć liczbę fałszywych trafień, ile chcesz, ale w wyniku kompromisu kończysz się ogromną liczbą przypadków fałszywie ujemnych.
Firebug,
10
Różnica między nimi jest niewielka: papier z łososiem to miła przypowieść o znaczeniu korekty wielokrotnych porównań, którą każdy powinien już robić. W przeciwieństwie do tego, problem PNAS gryzie ludzi, którzy próbowali zrobić „właściwą rzecz”, ale sama korekta była nieco niepewna.
Matt Krause,
4
Myślę, że jest to świetne pytanie, ponieważ trafia ono w sedno wielokrotnych korekt porównań i kluczowych założeń przy przeprowadzaniu tego rodzaju analiz w kontekście wspólnego toku badań. Jednak jedynym pytaniem w tekście jest „czy ktoś z większą wiedzą niż my chce komentować?” który jest dość szeroki i niespecyficzny. Gdyby można było skupić się na konkretnym problemie statystycznym w ramach centrum pomocy, byłoby bardziej odpowiednie dla tego forum.
Sycorax,
2
Dzięki. Zredagowałem pytanie, aby było bardziej szczegółowe. Daj mi znać, czy powinienem go bardziej edytować.
R Greg Stacey,

Odpowiedzi:

69

Na figurze 40000

Wiadomości są naprawdę rewelacyjne, ale gazeta jest naprawdę dobrze uzasadniona. Przez wiele dni w moim laboratorium toczyły się dyskusje, w sumie naprawdę niezbędna krytyka, która zmusza badaczy do introspekcji ich pracy. Polecam lekturę następującego komentarza Thomasa Nicholsa , jednego z autorów „Cluster Failure: Dlaczego wnioskowania fMRI dla zasięgu przestrzennego zawyżają wskaźniki fałszywie dodatnich” (przepraszam za długi cytat).

Jest jednak jedna liczba, której żałuję: 40 000. Próbując odnieść się do znaczenia dyscypliny fMRI, wykorzystaliśmy oszacowanie całej literatury fMRI jako liczbę badań, na które wpłynęły nasze ustalenia. W naszej obronie znaleźliśmy problemy z wnioskowaniem wielkości klastra ogólnie (ciężkie dla P = 0,01 CDT, tendencyjne dla P = 0,001), dominująca metoda wnioskowania, co sugeruje, że wpłynęła na to większość literatury. Liczba w oświadczeniu dotyczącym wpływu została jednak zebrana przez popularną prasę i wywołana małą burzę twitter. Dlatego uważam, że moim obowiązkiem jest przynajmniej oszacować „Ile artykułów wpływa na naszą pracę?”. Nie jestem bibliometrikiem, a to naprawdę zgrubne i gotowe ćwiczenie, ale mam nadzieję, że daje poczucie wielkości problemu.

Kod analizy (w Matlabie) jest przedstawiony poniżej, ale tutaj jest chudy: na podstawie pewnych rozsądnych obliczeń probabilistycznych, ale być może kruchych próbek literatury, szacuję, że około 15 000 artykułów korzysta z wnioskowania o wielkości klastra z poprawką do wielokrotnych testów; spośród nich około 3500 używa CDT o wartości P = 0,01. 3500 to około 9% całej literatury, a może bardziej przydatne, 11% artykułów zawierających oryginalne dane. (Oczywiście niektóre z tych 15 000 lub 3 500 mogą korzystać z wnioskowania nieparametrycznego, ale niestety jest to rzadkie w przypadku fMRI - przeciwnie, jest to domyślne narzędzie wnioskowania dla strukturalnych analiz VBM / DTI w FSL).

Szczerze mówiąc, myślałem, że ta liczba będzie wyższa, ale nie zdawałem sobie sprawy z dużej części badań, w których nigdy nie stosowano żadnej korekty wielokrotnego testowania. (Nie możesz zawyżać skorygowanych znaczeń, jeśli nie poprawisz!) . Obliczenia te sugerują, że 13 000 artykułów nie wykorzystało wielokrotnej korekty testowej. Oczywiście niektóre z nich mogą wykorzystywać obszary zainteresowania lub analizy podobjętościowe, ale jest ich niewiele (tj. Wynik w stylu badania klinicznego), które nie mają absolutnie żadnej krotności. Nasz artykuł nie dotyczy bezpośrednio tej grupy, ale w publikacjach, w których stosowano korektę wielokrotnych testów ludowych, P <0,001 & k> 10, nasz artykuł pokazuje, że w tym podejściu odsetek błędów rodzinnych przekracza 50%.

Czy mówimy, że 3500 artykułów jest „nie tak”? To zależy. Nasze wyniki sugerują, że CDT P = 0,01 zawyżało wartości P, ale każde badanie musi zostać zbadane… jeśli efekty są naprawdę silne, prawdopodobnie nie ma znaczenia, czy wartości P są stronnicze, a wnioskowanie naukowe pozostanie niezmienione. Ale jeśli efekty są naprawdę słabe, wówczas wyniki mogą rzeczywiście być spójne z hałasem . A co z tymi 13 000 artykułami bez korekty, szczególnie powszechnymi we wcześniejszej literaturze? Nie, nie należy ich również wyrzucać z ręki, ale do tych prac potrzebne jest szczególnie zmęczone oko, zwłaszcza w porównaniu z nowymi odniesieniami o ulepszonych standardach metodologicznych.

Na końcu dołącza również tę tabelę:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

Zasadniczo SPM (statystyczne parametryczne mapowanie, zestaw narzędzi dla Matlaba) jest najczęściej stosowanym narzędziem do badań neuronauki fMRI. Jeśli sprawdzisz papier, zobaczysz, że użycie CDT o wartości P = 0,001 (standard) dla klastrów w SPM daje prawie oczekiwany rodzinny współczynnik błędów.

Autorzy wypełnili nawet erratę ze względu na brzmienie artykułu:

Biorąc pod uwagę powszechną błędną interpretację naszego artykułu, Eklund i wsp., Cluster Failure: Dlaczego wnioski fMRI dla zasięgu przestrzennego zawyżają wskaźniki fałszywie dodatnie, złożyliśmy błąd w biurze redakcyjnym PNAS:

Errata dla Eklund i wsp., Awaria klastra: Dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost wskaźników fałszywie dodatnich. Eklund, Anders; Nichols, Thomas E.; Knutsson, Hans

Dwa zdania były źle sformułowane i można je łatwo zrozumieć, ponieważ zawyżają nasze wyniki.

Ostatnie zdanie oświadczenia o znaczeniu powinno brzmieć: „Te wyniki kwestionują ważność wielu badań fMRI i mogą mieć duży wpływ na interpretację słabo istotnych wyników neuroobrazowania”.

Pierwsze zdanie po tytule „Przyszłość fMRI” powinno brzmieć: „Ze względu na godne ubolewania praktyki archiwizacji i udostępniania danych jest mało prawdopodobne, aby problematyczne analizy mogły zostać powtórzone”.

Zastępują one dwa zdania, które błędnie sugerują, że nasza praca wpłynęła na wszystkie 40 000 publikacji (patrz Bibliometrics of Cluster Inference, aby zapoznać się z potencjalnym wpływem literatury).

Po początkowym odrzuceniu erraty, na tej podstawie, że poprawiała ona interpretację, a nie fakt, PNAS zgodziła się opublikować ją tak, jak ją przedłożyliśmy powyżej.


Na tzw. Bug

Niektóre wiadomości wspominały również o błędzie jako przyczynie nieważności badań. Rzeczywiście, jednym z narzędzi AFNI było niedokładne wnioskowanie , które zostało rozwiązane po opublikowaniu preprint w arXiv .


Wnioskowanie statystyczne stosowane w funkcjonalnym neuroobrazowaniu

5%

Za pomocą uogólnionego modelu liniowego (GLM) identyfikujesz, które szeregi czasowe sygnału wokseli są skorelowane z projektem paradygmatu eksperymentu (zwykle boolowskie szeregi czasowe splecione z kanoniczną funkcją odpowiedzi hemodynamicznej, ale istnieją odmiany).

Tak więc ten GLM dał ci informacje, jak bardzo każda seria czasowa wokseli przypomina to zadanie. Powiedzmy, że masz dwie grupy osób: zwykle pacjentów i kontroli. Porównanie wyników GLM między grupami może być wykorzystane do wykazania, w jaki sposób stan grup moduluje wzór ich „aktywacji” w mózgu.

Porównywanie wokselowe między grupami jest wykonalne, ale ze względu na funkcję punktowego rozproszenia właściwą dla urządzenia oraz etap wygładzania wstępnego przetwarzania nie jest uzasadnione oczekiwanie, że woksele niosą ze sobą wszystkie informacje. Różnica w wokselach między grupami powinna być w rzeczywistości rozłożona na woksele sąsiednie.

Tak, klaster mądry porównanie jest wykonywana, czyli jedyne różnice między grupami, które tworzą się skupiska są uznawane. Ten próg zasięgu klastra jest najpopularniejszą techniką wielokrotnej korekty porównania w badaniach fMRI. Problem leży tutaj.

SPM i FSL zależą od Gaussowskiej teorii pola losowego (RFT) dla wnioskowania wokselowego i klastrowego z poprawką FWE. Wnioskowanie klastrowe RFT zależy jednak od dwóch dodatkowych założeń. Pierwsze założenie jest takie, że gładkość przestrzenna sygnału fMRI jest stała w mózgu, a drugie założenie jest takie, że funkcja autokorelacji przestrzennej ma określony kształt (kwadrat wykładniczy) (30)

W SPM musisz przynajmniej ustawić nominalną szybkość FWE, a także próg definiujący klaster (CDT). Zasadniczo SPM stwierdza, że ​​woksele są wysoce skorelowane z zadaniem, a po progowaniu z CDT sąsiednie są agregowane w klastry. Te rozmiary klastrów są porównywane z oczekiwanym zakresem klastrów z teorii losowych pól (RFT), biorąc pod uwagę zbiór FWER [ 1 ].

Teoria pól losowych wymaga, aby mapa aktywności była gładka, aby była dobrym przybliżeniem sieci do pól losowych. Jest to związane z ilością wygładzania zastosowaną do objętości. Wygładzanie wpływa również na założenie, że reszty są normalnie rozłożone, ponieważ wygładzenie według centralnego twierdzenia granicznego spowoduje, że dane będą bardziej Gaussowskie.

Autorzy wykazali w [ 1 ], że oczekiwane rozmiary skupień z RFT są naprawdę małe w porównaniu z progami zasięgu skupienia uzyskanymi z losowych testów permutacyjnych (RPT).

α=0.05


@amoeba podniósł w komentarzach te dwa bardzo istotne pytania:

(1) The Eklund i in. Artykuł PNAS mówi o „nominalnym poziomie 5%” wszystkich testów (patrz np. Pozioma czarna linia na ryc. 1). Jednak CDT na tej samej figurze jest różny i może wynosić np. 0,01 i 0,001. W jaki sposób próg CDT odnosi się do nominalnego poziomu błędu typu I? Jestem tym zmieszany. (2) Czy widziałeś odpowiedź Karla Fristona http://arxiv.org/abs/1606.08199 ? Przeczytałem to, ale nie jestem całkiem pewien, co mówią: czy widzę poprawnie, że zgadzają się z Eklundem i in. ale powiedz, że to „dobrze znany” problem?

(1) Dobre pytanie. Właściwie sprawdziłem moje referencje, zobaczmy, czy mogę to teraz wyjaśnić. Wnioskowanie klastrowe opiera się na zakresie klastrów, które tworzą się po zastosowaniu pierwotnego progu ( CDT, który jest arbitralny ). W analizie wtórnej zastosowano próg liczby wokseli na klaster . Próg ten opiera się na oczekiwanym rozkładzie zerowych zakresów skupień, które można oszacować na podstawie teorii (np. RFT), i określa nominalny FWER. Dobrym odniesieniem jest [ 2 ].

(2) Dzięki za ten odnośnik, nie widziałem go wcześniej. Flandin i Friston twierdzą, że Eklund i in. potwierdził wnioskowanie RFT, ponieważ w zasadzie wykazało, że przestrzegając jego założeń (dotyczących CDT i wygładzania) wyniki są obiektywne. W tym świetle nowe wyniki pokazują, że różne praktyki w literaturze mają tendencję do odchylania wnioskowania, ponieważ podważa ono założenia RFT.


Na wiele porównań

Jest również dobrze znane, że wiele badań w dziedzinie neuronauki nie koryguje wielokrotnych porównań, szacunki sięgają od 10% do 40% literatury. Ale nie są one uwzględnione w tym twierdzeniu, wszyscy wiedzą, że te dokumenty mają kruchą ważność i być może ogromne fałszywie dodatnie wskaźniki.


Na FWER powyżej 70%

Autorzy zgłosili również procedurę, w której FWER przekracza 70%. Ta „ludowa” procedura polega na zastosowaniu CDT w celu utrzymania tylko bardzo znaczących klastrów, a następnie zastosowaniu innego arbitralnie wybranego progu zasięgu skupienia (w liczbie wokseli). To, czasem nazywane „wnioskowaniem zestawu”, ma słabe podstawy statystyczne i może generować najmniej wiarygodne wyniki.


Poprzednie raporty

Ci sami autorzy informowali już o problemach z prawidłowością SPM [ 1 ] w poszczególnych analizach. Istnieją również inne cytowane prace w tej dziedzinie.

Co ciekawe, w kilku raportach dotyczących analizy na poziomie grupy i osoby na podstawie danych symulowanych stwierdzono, że próg RFT był w rzeczywistości konserwatywny. Dzięki najnowszym osiągnięciom w zakresie mocy obliczeniowej RPT można znacznie łatwiej wykonywać na rzeczywistych danych, wykazując duże rozbieżności z RFT.


AKTUALIZACJA: 18 października 2017 r

W czerwcu ukazał się komentarz do „Awarii klastra” [ 3 ]. Tam Mueller i in. argumentują, że wyniki przedstawione w Eklund i wsp. mogą wynikać z określonej techniki wstępnego przetwarzania obrazu zastosowanej w ich badaniu. Zasadniczo dokonali ponownego próbkowania obrazów funkcjonalnych do wyższej rozdzielczości przed wygładzeniem (choć prawdopodobnie nie jest to wykonywane przez każdego badacza, jest to rutynowa procedura w większości programów do analizy fMRI). Zauważają również, że Flandin i Friston nie. Właściwie widziałem Eklunda przemawiającego w tym samym miesiącu na dorocznym spotkaniu Organizacji ds. Mapowania Mózgu Ludzkiego (OHBM) w Vancouver, ale nie pamiętam żadnych komentarzy na ten temat, ale wydaje się to kluczowe.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., i Knutsson, H. (2012). Czy parametryczna analiza fMRI z SPM daje prawidłowe wyniki? - Badanie empiryczne 1484 zestawów danych spoczynkowych. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. i Wager, TD (2014). Progi oparte na zasięgu klastra w analizach fMRI: pułapki i zalecenia. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, i Lohmann, G. (2017). Komentarz: Awaria klastra: dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost współczynników fałszywie dodatnich. Frontiers in Human Neuroscience, 11.

Firebug
źródło
1
@Qroid Tak, w pierwszej części założenie nie ma zastosowania (i prawdopodobnie jest to przyczyną dobrej wydajności nieparametrycznego testu permutacji). Skupiska są skupiskami wokseli, tj. Wokseli sąsiednich wykazujących ten sam efekt. Istnieje wartość p definiująca klaster (próg definiujący klaster).
Firebug,
7
Ta odpowiedź skupia się głównie na tym, czy jest to 40000, czy jakaś inna liczba, ale myślę, że dla wielu osób bardziej interesujące byłoby podsumowanie głównej debaty (jakie są klastry? Jaki jest problem z korelacjami przestrzennymi do testowania hipotez? Czy nikt nie naprawdę o tym wcześniej myśleć? itd.)
ameba
1
Dzięki jeszcze raz. Po krótkim spojrzeniu na Woo i in. 2014, jestem już pewien, dlaczego Eklund i in. dostał się do PNAS i w rezultacie wywołał taki sh * tstorm w popularnej prasie i na blogach. Czy Woo i in. mówiąc mniej więcej to samo? Oto, w ich kropce „najciekawszych”: „Kolejną pułapką są zwiększone fałszywe alarmy, gdy stosuje się liberalny próg pierwotny”.
ameba
1
Widzę. Rozumiem więc, że naukowo nic tak naprawdę się teraz nie wydarzyło: problem z liberalnymi CDT jest znany od lat, dyskutowany w wielu artykułach i pokazywany w różnych symulacjach przez różnych badaczy. (Niemniej jednak niektórzy badacze nadal stosowali tak niebezpiecznie liberalne CDT). Eklund i in. 2016 miał szczęście być opublikowany w „głośnym” czasopiśmie i boo! - wszyscy mówią teraz o tym jak o rewelacji.
ameba
7
@amoeba Społeczność neuronauki potrzebuje rozprawy statystycznej, podobnej do tego, co wydarzyło się w psychologii stosowanej (być może nie tak drastycznej jak zakaz wartości p). Wiele artykułów twierdzących o znaczeniu statystycznym nie ma ścisłości statystycznej, ludzie używają narzędzi i parametrów, które powodują, że „pojawiają się wyniki”.
Firebug