Czytałem ten artykuł w Nature, w którym wyjaśniono niektóre błędy w kontekście analizy danych. Zauważyłem, że błąd teleobiektywu w Teksasie był szczególnie trudny do uniknięcia:
Pułapkę poznawczą, która czeka podczas analizy danych, ilustruje bajka strzelca wyborowego w Teksasie: nieudolny strzelec wyborowy, który wystrzeliwuje losowy wzór pocisków z boku stodoły, rysuje cel wokół największej grupy dziur po kulach i dumnie wskazuje na jego sukces.
Jego dziesiątka jest oczywiście śmieszna - ale błąd nie jest tak oczywisty dla graczy, którzy wierzą w „gorącą rękę”, gdy mają serię zwycięstw, lub dla ludzi, którzy widzą nadprzyrodzone znaczenie, gdy losowanie loterii pojawia się jako wszystkie nieparzyste liczby.
Nie zawsze jest to oczywiste dla badaczy. „Po prostu dostajesz trochę zachęty z danych, a potem myślisz, że to jest ścieżka do zejścia na dół”, mówi Pashler. „Nie zdajesz sobie sprawy, że masz 27 różnych opcji i wybrałeś tę, która dała Ci najbardziej przyjemne lub interesujące wyniki, a teraz angażujesz się w coś, co wcale nie jest obiektywną reprezentacją danych. ”
Myślę, że tego rodzaju prace eksploracyjne są powszechne i często hipotezy są konstruowane na podstawie tej części analizy. Istnieje całe podejście ( EDA ) poświęcone temu procesowi:
Analiza danych eksploracyjnych została promowana przez Johna Tukeya, aby zachęcić statystyków do zbadania danych i ewentualnie sformułowania hipotez, które mogą prowadzić do gromadzenia nowych danych i eksperymentów
Wygląda na to, że każdy proces eksploracyjny przeprowadzony bez uprzedniej hipotezy ma skłonność do generowania fałszywych hipotez.
Zauważ, że powyższy opis EDA faktycznie mówi new data collection and experiments
. Rozumiem, że po zebraniu nowych danych właściwa jest analiza danych potwierdzających (CDA). Nie sądzę jednak, aby to rozróżnienie było bardzo jasne i chociaż idealna byłaby separacja EDA i CDA, z pewnością istnieją pewne okoliczności, w których nie jest to możliwe. Chciałbym powiedzieć, że ścisłe przestrzeganie tego rozdziału jest rzadkością i większość praktykujących wcale nie zgadza się z paradygmatem EDA.
Więc moje pytanie brzmi: czy EDA (lub jakikolwiek nieformalny proces eksploracji danych) sprawia, że bardziej prawdopodobne jest zakochanie się w błędach strzelców wyborowych w Teksasie?
Odpowiedzi:
Jeśli ktoś postrzega rolę EDA wyłącznie jako generującą hipotezy, to żadna błędność strzelca wyborowego nie ma zastosowania. Jednak bardzo ważne jest, aby kolejne próby potwierdzające były rzeczywiście niezależne. Wielu badaczy próbuje „pogodzić różnice” z takimi rzeczami, jak analizy zbiorcze, meta analizy i metody bayesowskie. Oznacza to, że przynajmniej niektóre dowody przedstawione w takiej analizie obejmują „okrąg wokół losowych dziur po kulach”.
źródło
To bardzo negatywnie ocenia eksploracyjną analizę danych. Chociaż argument ten nie jest błędny, tak naprawdę mówi „co może pójść nie tak, gdy użyję bardzo ważnego narzędzia w niewłaściwy sposób?”
Zaakceptowanie nieskorygowanych wartości p metod EDA doprowadzi do znacznie zawyżonych poziomów błędu typu I. Ale myślę, że Tukey nie byłby zadowolony z tego, że ktoś to robi. Celem EAO nie jest wyciąganie ostatecznych wniosków na temat relacji w danych, ale raczej szukanie potencjalnych nowych relacji w danych, które można by śledzić.
Rezygnacja z tego kroku w większym procesie naukowym zasadniczo hamuje naukę, aby nigdy nie była w stanie znaleźć nowych interesujących aspektów naszych danych, poza czystą logiczną dedukcją. Czy kiedykolwiek próbowałeś logicznie wydedukować, w jaki sposób nadekspresja zestawu genów wpłynie na przeżycie komórki? Wskazówka: to nie jest bardzo łatwe (jednym z naszych ulubionych żartów wśród pracowników bioinformatyki w mojej pracy było, gdy fizyk zapytał: „Dlaczego nie symulujesz fizycznych właściwości różnych interakcji genów? To przestrzeń o skończonych parametrach”).
Osobiście uważam, że zamieszanie w tej kwestii może doprowadzić do wielkiego spowolnienia postępu naukowego. Znam zbyt wielu badaczy niestatystycznych, którzy twierdzą, że nie chcą wykonywać procedur EDA wstępnych danych, ponieważ „wiedzą, że EDA może być zła”.
Podsumowując, jest absolutną prawdą, że stosowanie metod EDA i traktowanie ich jako potwierdzających metod analizy danych doprowadzi do nieprawidłowych wyników. Jednak brak właściwego stosowania EDA może prowadzić do prawie żadnych rezultatów.
źródło
Ulepszę to stwierdzenie i wyrażę to nieco inaczej: wybór hipotezy do przetestowania na podstawie danych podważa test, jeśli nie zastosuje się prawidłowej hipotezy zerowej. Istotą artykułu w Nature jest to, że analitykom łatwo jest oszukać się, ignorując wszystkie wielokrotne porównania, które domyślnie dokonują podczas eksploracji.
Nature cytuje Andrew Gelmana, ale nie wspomina o swojej pracy z Erikiem Lokenem na ten temat. Fragment:
Inne:
Treściwie:
I jeszcze jedno, podkreśl moje:
Krótko mówiąc, nie jest tak, że EDA prowadzi do „fałszywej hipotezy”; testowanie hipotezy przy użyciu tego samego zestawu danych, które skłoniło tę hipotezę, może prowadzić do fałszywych wniosków.
Jeśli jesteś zainteresowany pokonaniem tej przeszkody, Gelman ma inny artykuł, w którym argumentuje, że wiele z tych problemów znika w ramach bayesowskich, a artykuł z odniesieniami do Loken'a „replikacja przed publikacją”, jak anegdotycznie opisano w pierwszej części tego artykułu .
źródło
Prawie z definicji tak, oczywiście, EDA bez CDA przyciąga strzelców z Teksasu.
Trudność, gdy CDA nie jest możliwa (być może nie można uzyskać dalszych danych), polega na szczerości wobec samego siebie, ile testów naprawdę wykonałeś, a tym samym na przypisaniu pewnego rodzajup -wartość twojego odkrycia. Nawet w przypadkach, w których można zasadniczo policzyć przestrzeń wyszukiwania,p -wartość obliczeń jest albo wykonywana nieprawidłowo, albo wcale: patrz przykład na wikipedii .
źródło
Aby dodać do i tak świetnych odpowiedzi: istnieje pośrednik między pełnym CDA a akceptacją wyników EDA po wartości nominalnej. Po znalezieniu możliwej interesującej cechy (lub hipotezy) możesz poczuć jej solidność, wykonując weryfikację krzyżową (CV) lub symulacje ładowania początkowego. Jeśli twoje ustalenia zależą tylko od kilku kluczowych obserwacji, CV lub Bootstrap pokażą, że wiele próbek fałd (CV) lub boostrap nie odtwarza obserwowanej cechy.
Nie jest to niezawodna metoda, ale jest to dobra kontrola pośrednia przed przejściem na pełny CDA (lub celowe utrzymywanie „zestawu sprawdzania poprawności” z początkowej puli danych).
źródło
Najbardziej rygorystycznym kryterium wyboru modelu danych jest stopień, w jakim przybliżona jest złożoność danych Kołmogorowa - to znaczy stopień, w jakim dane bezstratnie kompresują dane. Teoretycznie może to wynikać z samej analizy danych eksploracyjnych.
Zobacz „ Dekonwolucja przyczynowa za pomocą algorytmicznych modeli generatywnych ”
źródło