Analiza danych eksploracyjnych (EDA) często prowadzi do eksploracji innych „ścieżek”, które niekoniecznie należą do początkowego zestawu hipotez. Taką sytuację mam w przypadku badań z ograniczoną wielkością próby i dużą ilością danych zebranych za pomocą różnych kwestionariuszy (dane społeczno-demograficzne, skale neuropsychologiczne lub medyczne - np. Funkcjonowanie psychiczne lub fizyczne, poziom depresji / lęku, lista kontrolna objawów ). Zdarza się, że EDA pomaga uwypuklić niektóre nieoczekiwane relacje („nieoczekiwane”, co oznacza, że nie zostały uwzględnione w pierwotnym planie analizy), co przekłada się na dodatkowe pytania / hipotezy.
Podobnie jak w przypadku nadmiernego dopasowania, pogłębianie lub szpiegowanie danych prowadzi do wyników, które się nie generalizują. Jednak gdy dostępnych jest wiele danych, postulowanie ograniczonego zestawu hipotez jest dość trudne (dla badacza lub lekarza).
Chciałbym wiedzieć, czy istnieją dobrze znane metody, zalecenia lub praktyczne zasady, które mogą pomóc w określeniu EDA w przypadku badań na małej próbie.
Odpowiedzi:
Myślę, że najważniejsze jest, aby być uczciwym, zgłaszając takie wyniki, że były to nieoczekiwane ustalenia z EDA, a nie część wstępnego planu analizy opartego na hipotezie a priori . Niektóre osoby lubią nazywać takie wyniki „generowaniem hipotezy”: np. Pierwsze trafienie z wyszukiwania tego wyrażenia w Google Scholar zawiera w podsumowaniu streszczenia:
Ponieważ była to analiza „eksploracyjna”, efekt ten należy uznać za hipotezę generującą i oceniać prospektywnie w innych badaniach ...
Należy jednak zauważyć, że chociaż była to analiza podgrup post-hoc, pochodziła ona z randomizowanego badania kontrolnego, a nie badania obserwacyjnego, w którym problem pogarsza się. Philip Cole zlekceważył pomysł, że badania obserwacyjne („epidemiologiczne”) mogą generować hipotezy w celowo prowokującym, ale zabawnym komentarzu:
P Cole. Maszyna do generowania hipotez. Epidemiology 1993; 4 : 271–273.
źródło
Po prostu zostawiam zainteresowanemu czytelnikowi kilka referencji na temat pogłębiania danych i badań klinicznych . Ma to na celu rozszerzenie dobrej odpowiedzi @onestop . Starałem się unikać artykułów koncentrujących się tylko na wielu porównaniach lub zagadnieniach projektowych, chociaż badania z wieloma punktami końcowymi nadal stanowią trudne i kontrowersyjne dyskusje (długo po twierdzeniach Rothmana o bezużytecznych dostosowaniach , Epidemiologia 1990, 1: 43-46; lub zobacz recenzję Feise w BMC Medical Research Methodology 2002, 2: 8).
Rozumiem, że chociaż mówiłem o eksploracyjnej analizie danych , moje pytanie bardziej ogólnie dotyczy wykorzystania eksploracji danych, z potencjalnymi pułapkami, równolegle z testowaniem opartym na hipotezach.
źródło