Dobrze wiadomo, że badacze powinni poświęcić czas na obserwowanie i badanie istniejących danych i badań przed sformułowaniem hipotezy, a następnie zebraniem danych w celu przetestowania tej hipotezy (odnosząc się do testowania istotności zerowej hipotezy). Wiele podstawowych książek statystycznych ostrzega, że hipotezy muszą zostać sformułowane a priori i nie można ich zmienić po zebraniu danych, w przeciwnym razie metodologia stanie się nieważna.
Rozumiem, że jednym z powodów, dla których zmiana hipotezy w celu dopasowania obserwowanych danych jest problematyczna, jest większa szansa na popełnienie błędu typu I z powodu fałszywych danych, ale moje pytanie brzmi: czy to jedyny powód, czy istnieją inne podstawowe problemy z przejściem na wyprawie wędkarskiej?
Jako pytanie dodatkowe, czy są sposoby na wyprawy wędkarskie bez narażania się na potencjalne pułapki? Na przykład, jeśli masz wystarczającą ilość danych, czy możesz wygenerować hipotezy z połowy danych, a następnie użyć drugiej połowy do ich przetestowania?
aktualizacja
Doceniam zainteresowanie moim pytaniem, ale odpowiedzi i komentarze dotyczą głównie tego, co uznałem za informacje podstawowe. Chciałbym wiedzieć, czy istnieją inne powody, dla których jest to złe poza większą możliwością fałszywych wyników i czy istnieją sposoby, takie jak najpierw dzielenie danych, zmiany hipotezy post hoc, ale unikania wzrostu błędów typu I.
Zaktualizowałem tytuł, aby, mam nadzieję, odzwierciedlić sedno mojego pytania.
Dzięki i przepraszam za zamieszanie!
źródło
Odpowiedzi:
Z pewnością możesz jeździć na wyprawy wędkarskie, o ile przyznasz , że jest to wyprawa wędkarska i traktuj ją jako taką. Bardziej ładną nazwą na to jest „eksploracyjna analiza danych”.
Lepszą analogią może być strzelanie do celu:
Możesz strzelać do celu i świętować, jeśli trafisz w dziesiątkę.
Możesz strzelać bez celu, aby przetestować właściwości swojej broni.
Ale oszustwo to strzelać w ścianę, a następnie pomalować cel wokół dziury po kuli.
Jednym ze sposobów uniknięcia niektórych problemów jest eksploracja zestawu danych szkoleniowych, a następnie przetestowanie go na osobnym zestawie danych „testowych”.
źródło
But it's cheating to shoot at a wall and then paint a target around the bullet hole.
Problem z wyprawami na ryby jest następujący: jeśli przetestujesz wystarczającą liczbę hipotez, jedna z nich zostanie potwierdzona niską wartością p. Dam konkretny przykład.
Wyobraź sobie, że przeprowadzasz badanie epidemiologiczne. Znalazłeś 1000 pacjentów cierpiących na rzadką chorobę. Chcesz wiedzieć, co mają ze sobą wspólnego. Więc zaczynasz testowanie - chcesz sprawdzić, czy dana cecha jest nadmiernie reprezentowana w tej próbce. Początkowo testujesz płeć, rasę, pewną stosowną historię rodzinną (ojciec zmarł na chorobę serca przed 50. rokiem życia ...), ale w końcu, gdy masz problemy ze znalezieniem czegoś, co „przykleja się”, zaczynasz dodawać różnego rodzaju inne czynniki, które tylko może odnosić się do choroby:
…
Teraz jest rzecz. Jeśli wybiorę wystarczającą liczbę „losowych” hipotez, staje się prawdopodobne, że co najmniej jedna z nich spowoduje, że wartość ap będzie mniejsza niż 0,05 - ponieważ istotą wartości p jest „prawdopodobieństwo błędnego odrzucenia hipotezy zerowej, gdy istnieje nie ma wpływu ". Mówiąc inaczej - średnio na każde 20 fałszywych hipotez, które testujesz, jedna z nich da ci ap <0,05 .
Jest to tak bardzo dobrze podsumowane w kreskówce XKCD http://xkcd.com/882/ :
Tragedia polega na tym, że nawet jeśli pojedynczy autor nie wykonuje 20 różnych testów hipotez na próbie w celu znalezienia znaczenia, może być 19 innych autorów, którzy robią to samo; a ten, kto „znajdzie” korelację, ma teraz interesujący artykuł do napisania i taki, który prawdopodobnie zostanie zaakceptowany do publikacji…
Prowadzi to do niefortunnej tendencji do powtarzalnych wyników. Najlepszym sposobem na uniknięcie tego jako indywidualny autor jest podniesienie poprzeczki wyżej. Zamiast testować czynnik indywidualny, zadaj sobie pytanie „jeśli przetestuję N hipotez, jakie jest prawdopodobieństwo wymyślenia co najmniej jednego fałszywie pozytywnego wyniku”. Kiedy naprawdę testujesz „hipotezy rybackie”, możesz pomyśleć o korekcie Bonferroniego, aby temu zapobiec - ale ludzie często tego nie robią.
Było kilka interesujących prac dr Ioannidesa - profilowanych w Atlantic Monthly specjalnie na ten temat.
Zobacz także to wcześniejsze pytanie z kilkoma wnikliwymi odpowiedziami.
zaktualizuj, aby lepiej odpowiadać na wszystkie aspekty pytania:
Jeśli boisz się, że możesz „łowić ryby”, ale tak naprawdę nie wiesz, jaką hipotezę sformułować, możesz zdecydowanie podzielić swoje dane na sekcje „eksploracja”, „replikacja” i „potwierdzenie”. Zasadniczo powinno to ograniczyć narażenie na ryzyko opisane wcześniej: jeśli masz wartość ap wynoszącą 0,05 w danych eksploracyjnych i otrzymujesz podobną wartość w danych replikacyjnych i potwierdzających, Twoje ryzyko pomyłki spada. Ładny przykład „robienia tego dobrze” pokazano w British Medical Journal (bardzo szanowana publikacja o współczynniku wpływu 17+)
Badanie i potwierdzenie czynników związanych z niepowikłaną ciążą u nieródek u kobiet: prospektywne badanie kohortowe, Chappell i in.
Oto odpowiedni akapit:
Cofając się nieco w literaturze, znajduje się dobry artykuł Altmana i in. Zatytułowany „Prognozy i badania prognostyczne: sprawdzanie poprawności modelu prognostycznego”, który idzie o wiele głębiej, i sugeruje sposoby upewnienia się, że nie wpadniesz w ten błąd. „Główne punkty” z artykułu:
Zwróć uwagę w szczególności na sugestię, aby przeprowadzić walidację (parafrazuję) z danymi z innych źródeł - tj. Nie wystarczy dowolnie podzielić dane na podzbiory, ale powinieneś zrobić, co możesz, aby udowodnić, że „uczenie się” zestawu jest z jednego zestawu eksperymentów można zastosować do danych z innego zestawu eksperymentów. Jest to wyższy pasek, ale dodatkowo zmniejsza ryzyko, że systematyczne odchylenie w konfiguracji tworzy „wyniki”, których nie można niezależnie zweryfikować.
To bardzo ważny temat - dziękuję, że zadałeś pytanie!
źródło
Pytanie dotyczy tego, czy istnieją inne problemy niż inflacja błędów typu I, które pochodzą z wypraw wędkarskich.
Błąd typu I pojawia się, gdy odrzucasz hipotezę zerową (zwykle bez skutku), gdy jest ona prawdziwa. Uogólnienie, związane z błędami typu I, ale niezupełnie takie samo, polega na tym, że nawet gdy wartość null jest fałszywa (tzn. Występuje pewien efekt), wyprawy wędkarskie doprowadzą do zawyżenia wielkości (a tym samym ważności) znalezionych efektów. Innymi słowy, gdy nie patrzysz na konkretną zmienną, ale patrzysz na wszystko i skupiasz swoją uwagę na tym, co jest największym efektem, efekty, które znajdziesz, mogą nie być , ale są tendencyjne, aby wydawać się większe niż są. Przykładem tego jest moja odpowiedź na: Algorytmy automatycznego wyboru modelu .0
źródło