Wiele razy spotkałem się z nieformalnymi ostrzeżeniami przed „szpiegowaniem danych” (oto jeden zabawny przykład ) i myślę, że mam intuicyjne wyobrażenie z grubsza, co to oznacza i dlaczego może to stanowić problem.
Z drugiej strony „eksploracyjna analiza danych” wydaje się być całkowicie godną szacunku procedurą w statystyce, przynajmniej sądząc po tym, że książka o tym tytule jest wciąż czczona jako klasyczna.
W mojej pracy często spotykam coś, co wydaje mi się szalonym „szpiegowaniem danych”, a może lepiej byłoby opisać je jako „ tortury danych ”, chociaż osoby, które to robią, postrzegają tę samą działalność jako całkowicie rozsądną i bezproblemową eksplorację „.
Oto typowy scenariusz: przeprowadzany jest kosztowny eksperyment (bez zastanowienia nad późniejszą analizą), oryginalni badacze nie mogą łatwo rozpoznać „historii” w zebranych danych, ktoś zostaje sprowadzony do zastosowania „statystycznego czarodziejstwa” i kto , po pocięciu i pokrojeniu danych w każdą stronę, w końcu udaje się wyodrębnić z nich jakąś „historię”, którą można opublikować.
Oczywiście, w końcowym raporcie / pracy zwykle pojawia się „walidacja”, która pokazuje, że analiza statystyczna postępuje w górę i w górę, ale rażące podejście do publikowania za wszelką cenę pozostawia mi wątpliwości.
Niestety moje ograniczone rozumienie nakazów i zakazów analizy danych nie pozwala mi wyjść poza tak niejasne wątpliwości, więc moją konserwatywną odpowiedzią jest po prostu zignorowanie takich ustaleń.
Mam nadzieję, że nie tylko lepsze zrozumienie różnicy między eksploracją a szpiegowaniem / torturowaniem, ale także, a co ważniejsze, lepsze zrozumienie zasad i technik wykrywania, kiedy ta linia zostanie przekroczona, pozwoli mi ocenić takie ustalenia w sposób, który może w uzasadniony sposób wyjaśnić mniej niż optymalną procedurę analityczną, a tym samym być w stanie wyjść poza moją raczej raczej prostą reakcję powszechnego niedowierzania.
EDYCJA: Dziękuję wszystkim za bardzo interesujące komentarze i odpowiedzi. Sądząc po ich treści, myślę, że nie wyjaśniłem wystarczająco dobrze mojego pytania. Mam nadzieję, że ta aktualizacja wyjaśni sprawy.
Moje pytanie dotyczy nie tyle tego , co powinienem zrobić, aby uniknąć torturowania moich danych (chociaż jest to pytanie, które mnie również interesuje), ale raczej: w jaki sposób powinienem wziąć pod uwagę (lub ocenić) wyniki, o których wiem, że tak naprawdę zostały osiągnięte takie „tortury danych”.
Sytuacja staje się bardziej interesująca w tych (znacznie rzadszych) przypadkach, w których dodatkowo jestem w stanie wyrazić opinię na temat takich „ustaleń”, zanim zostaną one przedłożone do publikacji.
W tym momencie najbardziej mogę zrobić, to powiedzieć coś w stylu „nie wiem ile wiarygodne mogę dać do tych wyników, biorąc pod uwagę to, co wiem na temat założeń i procedur, że wszedł do ich uzyskania.” Jest to zbyt niejasne, by nawet powiedzieć. Chęć wyjścia poza tę niejasność była motywacją do napisania mojego postu.
Szczerze mówiąc, moje wątpliwości są oparte na bardziej niż pozornie wątpliwe metody statystyczne. W rzeczywistości widzę to bardziej jako konsekwencję głębszego problemu: połączenie kawalerskiego podejścia do eksperymentalnego projektu w połączeniu z kategorycznym zobowiązaniem do publikowania wyników w ich obecnej postaci (tj. Bez dalszych eksperymentów). Oczywiście, zawsze są przewidywane kolejne projekty, ale po prostu nie wchodzi w rachubę, że ani jeden artykuł nie wyjdzie z, powiedzmy, „lodówki wypełnionej 100 000 próbek”.
Statystyki pojawiają się na zdjęciu jedynie jako środek do osiągnięcia tego najwyższego celu. Jedynym uzasadnieniem dla zatrzaśnięcia się w statystykach (ponieważ są one wtórne w całym scenariuszu) jest to, że frontalne wyzwanie dla założenia „publikacji za wszelką cenę” jest po prostu bezcelowe.
W rzeczywistości mogę wymyślić tylko jedną skuteczną odpowiedź w takich sytuacjach: zaproponować test statystyczny (niewymagający dodatkowych eksperymentów), który naprawdę sprawdza jakość analizy. Ale po prostu nie mam statystyk na ten temat. Moją nadzieją (naiwną z perspektywy czasu) było dowiedzieć się, co mogę studiować, co może pozwolić mi wymyślić takie testy ...
Kiedy to piszę, przychodzi mi do głowy, że jeśli jeszcze nie istnieje, świat mógłby skorzystać z jednej nowej gałęzi statystyki, poświęconej technikom wykrywania i ujawniania „tortur danych”. (Oczywiście nie chodzi mi o to, by dać się ponieść metaforze „tortur”: problemem nie jest sama „tortura danych”, ale fałszywe „ustalenia”, do których może prowadzić.)
Odpowiedzi:
Istnieje rozróżnienie, które czasami nie przyciąga wystarczającej uwagi, a mianowicie generowanie hipotez vs. testowanie hipotez lub analiza eksploracyjna vs. testowanie hipotez. Wszystkie brudne sztuczki na świecie mogą wymyślić twój pomysł / hipotezę. Ale kiedy go później przetestujesz, musisz bezwzględnie zabić swoich ukochanych.
Jestem biologiem, który cały czas pracuje z danymi o dużej przepustowości i tak, często wykonuję to „krojenie i krojenie”. Większość przypadków przeprowadzonego eksperymentu nie została starannie zaprojektowana; a może ci, którzy go zaplanowali, nie uwzględnili wszystkich możliwych wyników. Lub ogólne podejście podczas planowania brzmiało: „zobaczmy, co tam jest”. W efekcie powstają drogie, cenne i same w sobie ciekawe zestawy danych, które następnie odwracam, aby wymyślić historię.
Ale to tylko historia (możliwa pora snu). Po wybraniu kilku interesujących kątów - i tutaj jest kluczowy punkt - musisz przetestować go nie tylko z niezależnymi zestawami danych lub niezależnymi próbkami, ale najlepiej z niezależnym podejściem , niezależnym systemem eksperymentalnym.
Znaczenie tej ostatniej rzeczy - niezależnego zestawu eksperymentów, nie tylko niezależnego zestawu pomiarów lub próbek - jest często niedoceniane. Jednak, gdy testujemy 30 000 zmiennych pod kątem znaczącej różnicy, często zdarza się, że chociaż podobne (ale różne) próbki z tej samej kohorty i analizowane tą samą metodą nie odrzucą hipotezy, którą oparliśmy na poprzednim zestawie. Ale potem przechodzimy do innego rodzaju eksperymentu i innej kohorty, a nasze odkrycia okazują się być wynikiem błędu metodologicznego lub mają ograniczone zastosowanie.
Dlatego często potrzebujemy kilku prac kilku niezależnych badaczy, aby naprawdę zaakceptować hipotezę lub model.
Myślę więc, że torturowanie danych jest w porządku, o ile pamiętasz o tym rozróżnieniu i pamiętasz, co robisz, na jakim etapie procesu naukowego jesteś. Możesz użyć faz księżyca lub przedefiniować 2 + 2, o ile masz niezależną weryfikację danych. Aby umieścić to na zdjęciu:
Niestety są tacy, którzy zamawiają mikromacierz, aby zaokrąglić papier po kilku eksperymentach i nie pojawiła się żadna historia, z nadzieją, że analiza wysokiej przepustowości coś pokaże. Lub są zdezorientowani co do całego testowania hipotez vs. generacji.
źródło
Mówił to Herman Friedman, mój ulubiony profesor w szkole podstawowej
Rygorystyczne unikanie czegokolwiek poza najbardziej rygorystycznymi testami a priori zdefiniowanych hipotez poważnie ogranicza twoją zdolność do zaskoczenia.
Myślę, że najważniejsze jest to, że jesteśmy uczciwi w tym, co robimy. Jeśli jesteśmy w trybie eksploracyjnym, powinniśmy to powiedzieć. Na drugim końcu, jeden profesor, którego znam, powiedział jej uczniowi, aby zmienił jej hipotezy, ponieważ oryginalne nie okazały się znaczące.
źródło
Pozwól mi dodać kilka punktów:
przede wszystkim generowanie hipotez jest ważną częścią nauki. Wyniki nieprzewidywalne (eksploracyjne / opisowe) mogą być publikowane.
IMHO nie stanowi problemu, że eksploracja danych jest wykorzystywana w zbiorze danych i publikowane są tylko części tych ustaleń. Problemy są
Nauka i rozwój metod to procesy iteracyjne w znacznie bardziej ogólny sposób niż tylko generowanie hipotez - testowanie - generowanie nowych hipotez - testowanie ... IMHO to kwestia profesjonalnego osądu, jaki rodzaj właściwego postępowania jest konieczny na jakim etapie (patrz przykład poniżej).
Co robię:
które się pojawia Kiedy mam szansę, pokazuję ludziom, jak duża jest różnica (wykonalna głównie przy niższym poziomie tego samego problemu, np. porównanie danych zweryfikowanych niezależnie od pacjenta z wydajnością wewnętrzną szacunki procedur optymalizacji hiperparametrów, takich jak wyszukiwanie siatki paraterów SVM, „modeli łączonych”, takich jak PCA-LDA itd. Nie jest to realne do pogłębiania danych, ponieważ jak dotąd nikt nie dał mi pieniędzy na zarobienie prawdziwa replika rozsądnych badań ...)
zaakceptowano manuskrypt na arXiv: 1211.1323
Oto badanie, które dowodzi, że ta ślepa próba obejścia jest również często daremna, np.
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: Łamanie trendów w przetwarzaniu wstępnym ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(wypróbowali dużą liczbę kombinacji kroków wstępnego przetwarzania i stwierdzili, że bardzo niewiele prowadzi do lepszych modeli niż brak wstępnego przetwarzania)
Podkreśl, że nie torturuję moich danych bardziej niż to konieczne:
przykład :
Obserwacji papieru przy użyciu tych samych danych, jak na przykład (inny) tworzenie teorii odczytuje
Ponieważ tymczasem zostałem wyraźnie poproszony (na konferencji przez redaktora czasopisma CILS) o porównanie modeli z wstępnym przetwarzaniem PLS.
Weź praktyczny punkt widzenia: np. W badaniu gwiaździaka połączonym powyżej, oczywiście nadal decydowałem o niektórych punktach po spojrzeniu na dane (takie jak jaki próg intensywności odpowiada pomiarom wykonanym spoza próbki - które następnie zostały odrzucone). Inne decyzje, o których wiem, że są bezkrytyczne (liniowy vs. kwadratowy poziom podstawowy: moje doświadczenie z tego rodzaju danymi sugeruje, że to tak naprawdę niewiele się zmienia - co również jest w pełni zgodne z tym, co Jasper Engel znalazł na różnych danych podobnego typu, więc Nie spodziewałbym się, że wyniknie z decyzji o rodzaju linii bazowej, patrząc na dane (artykuł podaje argument, dlaczego jest to rozsądne).
Na podstawie przeprowadzonych przez nas badań możemy teraz powiedzieć, co należy rozwiązać, a co zmienić. A ponieważ wciąż jesteśmy na stosunkowo wczesnym etapie opracowywania metody (patrząc na próbki ex vivo ), nie warto poświęcać czasu na wykonanie wszystkich „prac domowych”, które ostatecznie będą potrzebne, zanim metoda będzie mogła zostać zastosowana in vivo . Np. Na obecnym etapie klasyfikacji gwiaździaka walidacja ponownego próbkowania jest bardziej rozsądnym wyborem niż zestaw testów zewnętrznych. Nadal podkreślam, że w pewnym momencie potrzebne będą prawdziwie zewnętrzne badania walidacyjne, ponieważ niektóre cechy wydajności można zmierzyć tylko w ten sposób (np. Efekty dryfu / udowodnienia, że możemy je poprawić). Ale teraz, gdy wciąż bawimy się ex-vivopróbki i rozwiązują inne części dużego problemu (w powiązanych dokumentach: jak radzić sobie z przypadkami granicznymi), zdobycie użytecznej wiedzy z właściwego badania walidacyjnego ex vivo jest zbyt niskie, aby było warte wysiłku (IMHO: chyba że które zostały wykonane w celu zmierzenia błędu systematycznego spowodowanego pogłębianiem danych).
Kiedyś przeczytałem argument o standardach statystycznych i sprawozdawczych oraz o tym, czy taka decyzja powinna być konieczna dla czasopisma (nie pamiętam, który), który mnie przekonał: wyrażono pogląd, że redaktorzy nie muszą próbować uzgadniać i egzekwować niektóre standardy (co spowoduje wiele bezskutecznych dyskusji), ponieważ:
źródło
Czasami rzeczy, które postrzegasz jako „tortury danych”, tak naprawdę nie są. Nie zawsze jest z góry jasne, co dokładnie zrobisz z danymi, aby podać, jak uważasz, prawdziwe wyniki eksperymentu, dopóki go nie zobaczysz.
Na przykład, mając dane o czasie reakcji dla zadania decyzyjnego, często chcesz odrzucić czasy, które nie dotyczą decyzji (tj. Gdy idą tak szybko, to oczywiście zgadują i nie podejmują decyzji). Możesz wykreślić dokładność decyzji względem RT, aby zobaczyć, gdzie na ogół występuje zgadywanie. Ale dopóki nie przetestujesz tego konkretnego paradygmatu, nie będziesz w stanie wiedzieć, gdzie są granice (w czasie, a nie dokładność). Dla niektórych obserwatorów taka procedura wygląda jak torturowanie danych, ale dopóki nie ma to nic wspólnego z testami hipotez (nie dostosowujesz ich na podstawie testów), to nie torturuje danych.
Szpiegowanie danych podczas eksperymentu jest w porządku, pod warunkiem, że zostało wykonane we właściwy sposób. Prawdopodobnie nieetyczne jest umieszczanie eksperymentu w czarnej skrzynce i przeprowadzanie analizy tylko wtedy, gdy przeprowadzono zaplanowaną liczbę uczestników. Czasami trudno jest stwierdzić, że występują problemy z eksperymentem, dopóki nie spojrzysz na dane i powinieneś jak najszybciej przyjrzeć się niektórym. Podglądanie danych jest silnie dyskredytowane, ponieważ jest równoznaczne z sprawdzeniem, czy p <0,05 i podjęciem decyzji o kontynuacji. Istnieje jednak wiele kryteriów, według których możesz kontynuować gromadzenie, które nie powodują szkodliwych błędów.
Powiedz, że chcesz się upewnić, że oszacowanie wariancji mieści się w znanym prawdopodobnym zakresie. Małe próbki mogą mieć dość dalekie szacunki wariancji, więc zbieraj dodatkowe dane, dopóki nie dowiesz się, że próbka jest bardziej reprezentatywna. W poniższej symulacji spodziewam się, że wariancja w każdym warunku będzie wynosić 1. Zrobię coś naprawdę szalonego i spróbuję każdej grupy niezależnie dla 10 próbek, a następnie dodam podmioty, aż wariancja będzie bliska 1.
Więc właśnie wpadłem w szał z pobieraniem próbek i sprawiam, że moje wariancje są bliskie oczekiwaniom i nadal nie mam dużego wpływu na alfa (to trochę poniżej 0,05). Kilka innych ograniczeń, takich jak N, musi być równych w każdej grupie i nie może być więcej niż 30, a alfa ma rację na 0,05. Ale co z SE? Co, jeśli zamiast tego spróbuję nadać SE określoną wartość? To naprawdę interesujący pomysł, ponieważ z kolei z góry ustalam szerokość CI (ale nie lokalizację).
Znów alfa zmieniła niewielką ilość, mimo że pozwoliłem N wędrować do 46 z oryginalnej 10 w oparciu o szpiegowanie danych. Co ważniejsze, wszystkie SE mieszczą się w wąskim zakresie w każdym z eksperymentów. Łatwo jest dokonać niewielkiej korekty alfa, aby to naprawić, jeśli jest to problem. Chodzi o to, że niektóre szpiegowanie danych niewiele szkodzi, a nawet może przynieść korzyści.
(BTW, to, co pokazuję, nie jest jakąś magiczną kulą. W rzeczywistości nie zmniejszasz liczby pacjentów na dłuższą metę, ponieważ robi to, ponieważ moc dla symulacji różnych N jest mniej więcej taka sama, jak dla symulacji średnich N )
Żadne z powyższych nie jest sprzeczne z najnowszą literaturą na temat dodawania przedmiotów po rozpoczęciu eksperymentu. W tych badaniach przyjrzeli się symulacjom, w których dodawano badanych po wykonaniu testu hipotezy, aby obniżyć wartość p. To wciąż źle i może wyjątkowo zawyżać alfa. Ponadto bardzo lubię odpowiedzi ze stycznia i Petera Floma. Chciałem tylko zauważyć, że patrzenie na dane podczas ich zbierania, a nawet zmiana planowanego N podczas zbierania, niekoniecznie są złymi rzeczami.
źródło
p
opartej na regule zatrzymania. Wszystkie krytyki modyfikacji N dotyczą robienia tego po teście hipotez (należy uwzględnić także inne rzeczy). Istnieje potencjał, że powoduje to pokusę ... ale ja to ignoruję.Jest to naprawdę kulturowy problem niezrównoważonego myślenia, w którym stronniczość publikacji prowadzi do faworyzowania pozytywnych wyników, a nasza konkurencyjna natura wymaga od redaktorów i badaczy tworzenia interesujących wyników, które są nowe lub sporne, na przykład w sensie obalanie wyników kogoś innego. W badaniach medycznych poczyniono znaczne postępy w celu rozwiązania tego problemu poprzez obowiązkową rejestrację badań i publikację wyników wraz z zapisem badań porzuconych, które również zostaną podane do wiadomości publicznej. Rozumiem, że skoro publikacja w czasopismach poświęconych nieudanym badaniom może być niepraktyczna, planuje się utrzymywanie ich ogólnodostępnej bazy danych. Nietypowe wyniki, których nie można odtworzyć, niekoniecznie wynikają z wykroczenia, jak w przypadku być może 50,
Stosowanie różnych metod niekoniecznie jest również rozwiązaniem. Na przykład, jaki chemik miksowałby odczynniki na różne sposoby w różnych warunkach i oczywiście spodziewałby się takich samych wyników?
źródło