Widziałem ten artykuł w „The Economist” na temat pozornie niszczącej pracy [1], podważającej „coś w rodzaju 40 000 opublikowanych badań [fMRI]”. Mówią, że błąd wynika z „błędnych założeń statystycznych”. Czytam artykuł i widzę, że jest to częściowo problem z wielokrotnymi korektami porównania, ale nie jestem ekspertem od fMRI i trudno mi go śledzić.
O jakich błędnych założeniach mówią autorzy ? Dlaczego poczyniono te założenia? Jakie są sposoby dokonywania tych założeń?
Z tyłu obliczeń koperty wynika, że 40 000 artykułów fMRI ma ponad miliard dolarów finansowania (pensja studencka, koszty operacyjne itp.).
[1] Eklund i wsp., Awaria klastra: Dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost wskaźników fałszywie dodatnich, PNAS 2016
źródło
Odpowiedzi:
Na figurze 40000
Wiadomości są naprawdę rewelacyjne, ale gazeta jest naprawdę dobrze uzasadniona. Przez wiele dni w moim laboratorium toczyły się dyskusje, w sumie naprawdę niezbędna krytyka, która zmusza badaczy do introspekcji ich pracy. Polecam lekturę następującego komentarza Thomasa Nicholsa , jednego z autorów „Cluster Failure: Dlaczego wnioskowania fMRI dla zasięgu przestrzennego zawyżają wskaźniki fałszywie dodatnich” (przepraszam za długi cytat).
Na końcu dołącza również tę tabelę:
Zasadniczo SPM (statystyczne parametryczne mapowanie, zestaw narzędzi dla Matlaba) jest najczęściej stosowanym narzędziem do badań neuronauki fMRI. Jeśli sprawdzisz papier, zobaczysz, że użycie CDT o wartości P = 0,001 (standard) dla klastrów w SPM daje prawie oczekiwany rodzinny współczynnik błędów.
Autorzy wypełnili nawet erratę ze względu na brzmienie artykułu:
Na tzw. Bug
Niektóre wiadomości wspominały również o błędzie jako przyczynie nieważności badań. Rzeczywiście, jednym z narzędzi AFNI było niedokładne wnioskowanie , które zostało rozwiązane po opublikowaniu preprint w arXiv .
Wnioskowanie statystyczne stosowane w funkcjonalnym neuroobrazowaniu
Za pomocą uogólnionego modelu liniowego (GLM) identyfikujesz, które szeregi czasowe sygnału wokseli są skorelowane z projektem paradygmatu eksperymentu (zwykle boolowskie szeregi czasowe splecione z kanoniczną funkcją odpowiedzi hemodynamicznej, ale istnieją odmiany).
Tak więc ten GLM dał ci informacje, jak bardzo każda seria czasowa wokseli przypomina to zadanie. Powiedzmy, że masz dwie grupy osób: zwykle pacjentów i kontroli. Porównanie wyników GLM między grupami może być wykorzystane do wykazania, w jaki sposób stan grup moduluje wzór ich „aktywacji” w mózgu.
Porównywanie wokselowe między grupami jest wykonalne, ale ze względu na funkcję punktowego rozproszenia właściwą dla urządzenia oraz etap wygładzania wstępnego przetwarzania nie jest uzasadnione oczekiwanie, że woksele niosą ze sobą wszystkie informacje. Różnica w wokselach między grupami powinna być w rzeczywistości rozłożona na woksele sąsiednie.
Tak, klaster mądry porównanie jest wykonywana, czyli jedyne różnice między grupami, które tworzą się skupiska są uznawane. Ten próg zasięgu klastra jest najpopularniejszą techniką wielokrotnej korekty porównania w badaniach fMRI. Problem leży tutaj.
W SPM musisz przynajmniej ustawić nominalną szybkość FWE, a także próg definiujący klaster (CDT). Zasadniczo SPM stwierdza, że woksele są wysoce skorelowane z zadaniem, a po progowaniu z CDT sąsiednie są agregowane w klastry. Te rozmiary klastrów są porównywane z oczekiwanym zakresem klastrów z teorii losowych pól (RFT), biorąc pod uwagę zbiór FWER [ 1 ].
Autorzy wykazali w [ 1 ], że oczekiwane rozmiary skupień z RFT są naprawdę małe w porównaniu z progami zasięgu skupienia uzyskanymi z losowych testów permutacyjnych (RPT).
@amoeba podniósł w komentarzach te dwa bardzo istotne pytania:
(1) Dobre pytanie. Właściwie sprawdziłem moje referencje, zobaczmy, czy mogę to teraz wyjaśnić. Wnioskowanie klastrowe opiera się na zakresie klastrów, które tworzą się po zastosowaniu pierwotnego progu ( CDT, który jest arbitralny ). W analizie wtórnej zastosowano próg liczby wokseli na klaster . Próg ten opiera się na oczekiwanym rozkładzie zerowych zakresów skupień, które można oszacować na podstawie teorii (np. RFT), i określa nominalny FWER. Dobrym odniesieniem jest [ 2 ].
(2) Dzięki za ten odnośnik, nie widziałem go wcześniej. Flandin i Friston twierdzą, że Eklund i in. potwierdził wnioskowanie RFT, ponieważ w zasadzie wykazało, że przestrzegając jego założeń (dotyczących CDT i wygładzania) wyniki są obiektywne. W tym świetle nowe wyniki pokazują, że różne praktyki w literaturze mają tendencję do odchylania wnioskowania, ponieważ podważa ono założenia RFT.
Na wiele porównań
Jest również dobrze znane, że wiele badań w dziedzinie neuronauki nie koryguje wielokrotnych porównań, szacunki sięgają od 10% do 40% literatury. Ale nie są one uwzględnione w tym twierdzeniu, wszyscy wiedzą, że te dokumenty mają kruchą ważność i być może ogromne fałszywie dodatnie wskaźniki.
Na FWER powyżej 70%
Autorzy zgłosili również procedurę, w której FWER przekracza 70%. Ta „ludowa” procedura polega na zastosowaniu CDT w celu utrzymania tylko bardzo znaczących klastrów, a następnie zastosowaniu innego arbitralnie wybranego progu zasięgu skupienia (w liczbie wokseli). To, czasem nazywane „wnioskowaniem zestawu”, ma słabe podstawy statystyczne i może generować najmniej wiarygodne wyniki.
Poprzednie raporty
Ci sami autorzy informowali już o problemach z prawidłowością SPM [ 1 ] w poszczególnych analizach. Istnieją również inne cytowane prace w tej dziedzinie.
Co ciekawe, w kilku raportach dotyczących analizy na poziomie grupy i osoby na podstawie danych symulowanych stwierdzono, że próg RFT był w rzeczywistości konserwatywny. Dzięki najnowszym osiągnięciom w zakresie mocy obliczeniowej RPT można znacznie łatwiej wykonywać na rzeczywistych danych, wykazując duże rozbieżności z RFT.
AKTUALIZACJA: 18 października 2017 r
W czerwcu ukazał się komentarz do „Awarii klastra” [ 3 ]. Tam Mueller i in. argumentują, że wyniki przedstawione w Eklund i wsp. mogą wynikać z określonej techniki wstępnego przetwarzania obrazu zastosowanej w ich badaniu. Zasadniczo dokonali ponownego próbkowania obrazów funkcjonalnych do wyższej rozdzielczości przed wygładzeniem (choć prawdopodobnie nie jest to wykonywane przez każdego badacza, jest to rutynowa procedura w większości programów do analizy fMRI). Zauważają również, że Flandin i Friston nie. Właściwie widziałem Eklunda przemawiającego w tym samym miesiącu na dorocznym spotkaniu Organizacji ds. Mapowania Mózgu Ludzkiego (OHBM) w Vancouver, ale nie pamiętam żadnych komentarzy na ten temat, ale wydaje się to kluczowe.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., i Knutsson, H. (2012). Czy parametryczna analiza fMRI z SPM daje prawidłowe wyniki? - Badanie empiryczne 1484 zestawów danych spoczynkowych. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. i Wager, TD (2014). Progi oparte na zasięgu klastra w analizach fMRI: pułapki i zalecenia. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE, i Lohmann, G. (2017). Komentarz: Awaria klastra: dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost współczynników fałszywie dodatnich. Frontiers in Human Neuroscience, 11.
źródło