Przeprowadzanie testu statystycznego po wizualizacji danych - pogłębianie danych?

31

Zaproponuję to pytanie za pomocą przykładu.

Załóżmy, że mam zestaw danych, na przykład zestaw danych cen mieszkań w Bostonie, w którym mam zmienne ciągłe i kategoryczne. Tutaj mamy zmienną „jakości”, od 1 do 10, oraz cenę sprzedaży. Mogę rozdzielić dane na domy o „niskiej”, „średniej” i „wysokiej” jakości (arbitralnie), tworząc wartości odcięcia dla jakości. Następnie, korzystając z tych grup, mogę wykreślić względem siebie histogramy ceny sprzedaży. Tak jak:

jakość mieszkań i cena sprzedaży

Tutaj „niski” to , a „wysoki” to w wyniku „jakości”. Mamy teraz rozkład cen sprzedaży dla każdej z trzech grup. Oczywiste jest, że istnieje różnica w centrum lokalizacji dla domów średniej i wysokiej jakości. Teraz, po tym wszystkim, myślę: „Hm. Wygląda na to, że istnieje różnica w środku lokalizacji! Dlaczego nie zrobię testu t na środkach?”. Następnie otrzymuję wartość p, która wydaje się poprawnie odrzucać hipotezę zerową, że nie ma różnicy w średnich.3)>7

Załóżmy teraz, że nie miałem nic na myśli do przetestowania tej hipotezy, dopóki nie sporządzę danych.

Czy to pogłębia dane?

Czy nadal pogłębia się dane, gdybym pomyślał: „Hm, założę się, że domy wyższej jakości kosztują więcej, ponieważ jestem człowiekiem, który mieszkał w domu wcześniej. Spiszę dane. Ach, ha! Wygląda inaczej! Czas testować! ”

Oczywiście nie jest pogłębianie danych, jeśli zestaw danych został zebrany w celu przetestowania tej hipotezy od samego początku. Ale często trzeba pracować z przekazanymi nam zestawami danych i każe się im „szukać wzorców”. Jak można uniknąć pogłębiania danych, mając na uwadze to niejasne zadanie? Czy tworzysz zestawy wstrzymujące do testowania danych? Czy wizualizacja „liczy się” jako szpiegowanie okazji do przetestowania hipotezy sugerowanej przez dane?

Marcel
źródło

Odpowiedzi:

27

Krótko nie zgadzając się z odpowiedzią @ ingolifs / dając kontrapunkt: tak, wizualizacja danych jest niezbędna. Ale wizualizacja przed podjęciem analizy prowadzi cię do ogrodu rozwidleń Gelman i Loken . Nie jest to to samo, co pogłębianie danych lub hakowanie p, częściowo przez zamierzenie (GoFP ma zwykle dobre intencje), a częściowo dlatego, że nie można uruchomić więcej niż jednej analizy. Ale to jest formą Snooping: ponieważ analiza jest zależny od danych, może to prowadzić do fałszywych wniosków lub zbyt pewny siebie.

Powinieneś w jakiś sposób określić, jaka jest twoja zamierzona analiza (np. „Domy wysokiej jakości powinny mieć wyższą cenę”) i zapisać ją (lub nawet oficjalnie ją zarejestrować), zanim przejrzysz swoje dane (możesz spojrzeć na zmienne predykcyjne w z góry, po prostu nie zmienne zmienne odpowiedzi, ale jeśli naprawdę nie masz pomysłów a priori , to nawet nie wiesz, które zmienne mogą być predyktorami, a które odpowiedziami; jeśli twoje dane sugerują różne lub dodatkowe analizy, wtedy twój zapis może zawierać zarówno to, co zamierzałeś zrobić na początku, jak i (i dlaczego) to zrobiłeś.

Jeśli naprawdę prowadzisz czystą eksplorację (tj. Nie masz hipotez a priori , po prostu chcesz zobaczyć, co jest w danych):

  • twoje myśli o wyciągnięciu próbki do potwierdzenia są dobre.
    • W moim świecie (nie pracuję z dużymi zestawami danych) utrata rozdzielczości z powodu mniejszej wielkości próbki byłaby bolesna
    • musisz zachować ostrożność przy wyborze próbki wstrzymania, jeśli dane są w jakikolwiek sposób ustrukturyzowane (geograficznie, szeregi czasowe itp.). Podpróbkowanie, tak jakby dane były ididalne, prowadzi do nadmiernej pewności siebie (patrz Wenger i Olden Methods w Ecology and Evolution 2012), więc możesz wybrać jednostki geograficzne, które będą się utrzymywać (na przykład DJ Harris Methods w Ecology and Evolution 2015)
  • możesz przyznać, że prowadzisz czystą eksplorację. Idealnie byłoby całkowicie uniknąć wartości p w tym przypadku, ale przynajmniej powiedzenie odbiorcom, że wędrujesz w GoFP, pozwala im wiedzieć, że mogą przyjmować wartości p za pomocą ogromnych ziaren soli.

Moje ulubione odniesienie do „bezpiecznych praktyk statystycznych” to Harrell's Regression Modeling Strategies (Springer); w sposób rygorystyczny, ale praktyczny, przedstawia najlepsze praktyki wnioskowania vs. przewidywania vs. eksploracji.

Ben Bolker
źródło
4
Bardzo dobrze powiedziane! Oczekuję, że w przyszłości odniosę się do tej odpowiedzi.
Great38
Właśnie takiej odpowiedzi szukałem, dziękuję. Uznałem tę odpowiedź za odpowiedź. Czy znasz jakieś zasoby, które uczą bezpiecznych praktyk statystycznych? Być może nieco szerszy zakres niż (doskonałe) artykuły, które opublikowałeś
Marcel
Świetna odpowiedź (+1), ale nie zgadzam się, że to coś innego niż pogłębianie danych; cel nie ma znaczenia - efekt jest taki sam.
Przywróć Monikę
Właściwie uważam, że warto zachować rozróżnienie między różnymi formami węszenia. Pogłębianie jest prawdopodobnie bardziej dotkliwe, ponieważ obejmuje (1) wiele jawnych testów zamiast wielu niejawnych testów oraz (2) test warunkowy / ciągły, aż do osiągnięcia p <0,05 (lub cokolwiek innego). Efekt jakościowy jest z pewnością taki sam.
Ben Bolker
11

Wizualizacja danych jest nieodzowną częścią analizy i jedną z pierwszych rzeczy, które powinieneś zrobić z nieznanym zestawem danych. Szybka gałka oczna danych może wskazać kolejne kroki. Rzeczywiście, powinno być dość oczywiste, patrząc na wykres, że średnie są różne, i nie jestem pewien, dlaczego test T był konieczny, aby to potwierdzić - środki są wystarczająco oddzielone, że sam wykres jest wszystkim dowodem, który chciałbym wymagać.

R2)

Myślę jednak, że jest tu głębsze pytanie. Jak zachować neutralność podobną do zen i uniknąć uprzedzeń, gdy zajmujemy się danymi w sposób naukowy? Odpowiedź brzmi: nie. A raczej nie musisz. Tworzenie przeczuć i hipotez oraz budowanie mentalnej narracji o tym, co oznaczają dane, jest całkowicie naturalne i akceptowalne, pod warunkiem, że masz świadomość, że to robisz i jesteś mentalnie przygotowany do ponownego rozważenia wszystkich tych hipotez w obliczu sprzecznych danych.

Ingolifs
źródło
7
Wizualizacja danych przed uruchomieniem testów może być w tym konkretnym przypadku nieszkodliwa. Jednak ktoś następnie wizualizuje inny wymiar ... i inny ... i patrzy na wykresy rozrzutu ... i wkrótce znajdzie się coś, co wygląda "na tyle oczywisto", że formalny test i narracja przychodzą naturalnie. O tak, pogłębianie danych jest zdecydowanie czymś, co można łatwo zrobić przez przypadek. Zobacz „Ogród ścieżek rozwidlania” Gelmana .
S. Kolassa - Przywróć Monikę