„Eksploracja” danych a „szpiegowanie” danych / „torturowanie”?

30

Wiele razy spotkałem się z nieformalnymi ostrzeżeniami przed „szpiegowaniem danych” (oto jeden zabawny przykład ) i myślę, że mam intuicyjne wyobrażenie z grubsza, co to oznacza i dlaczego może to stanowić problem.

Z drugiej strony „eksploracyjna analiza danych” wydaje się być całkowicie godną szacunku procedurą w statystyce, przynajmniej sądząc po tym, że książka o tym tytule jest wciąż czczona jako klasyczna.

W mojej pracy często spotykam coś, co wydaje mi się szalonym „szpiegowaniem danych”, a może lepiej byłoby opisać je jako „ tortury danych ”, chociaż osoby, które to robią, postrzegają tę samą działalność jako całkowicie rozsądną i bezproblemową eksplorację „.

Oto typowy scenariusz: przeprowadzany jest kosztowny eksperyment (bez zastanowienia nad późniejszą analizą), oryginalni badacze nie mogą łatwo rozpoznać „historii” w zebranych danych, ktoś zostaje sprowadzony do zastosowania „statystycznego czarodziejstwa” i kto , po pocięciu i pokrojeniu danych w każdą stronę, w końcu udaje się wyodrębnić z nich jakąś „historię”, którą można opublikować.

Oczywiście, w końcowym raporcie / pracy zwykle pojawia się „walidacja”, która pokazuje, że analiza statystyczna postępuje w górę i w górę, ale rażące podejście do publikowania za wszelką cenę pozostawia mi wątpliwości.

Niestety moje ograniczone rozumienie nakazów i zakazów analizy danych nie pozwala mi wyjść poza tak niejasne wątpliwości, więc moją konserwatywną odpowiedzią jest po prostu zignorowanie takich ustaleń.

Mam nadzieję, że nie tylko lepsze zrozumienie różnicy między eksploracją a szpiegowaniem / torturowaniem, ale także, a co ważniejsze, lepsze zrozumienie zasad i technik wykrywania, kiedy ta linia zostanie przekroczona, pozwoli mi ocenić takie ustalenia w sposób, który może w uzasadniony sposób wyjaśnić mniej niż optymalną procedurę analityczną, a tym samym być w stanie wyjść poza moją raczej raczej prostą reakcję powszechnego niedowierzania.

EDYCJA: Dziękuję wszystkim za bardzo interesujące komentarze i odpowiedzi. Sądząc po ich treści, myślę, że nie wyjaśniłem wystarczająco dobrze mojego pytania. Mam nadzieję, że ta aktualizacja wyjaśni sprawy.

Moje pytanie dotyczy nie tyle tego , co powinienem zrobić, aby uniknąć torturowania moich danych (chociaż jest to pytanie, które mnie również interesuje), ale raczej: w jaki sposób powinienem wziąć pod uwagę (lub ocenić) wyniki, o których wiem, że tak naprawdę zostały osiągnięte takie „tortury danych”.

Sytuacja staje się bardziej interesująca w tych (znacznie rzadszych) przypadkach, w których dodatkowo jestem w stanie wyrazić opinię na temat takich „ustaleń”, zanim zostaną one przedłożone do publikacji.

W tym momencie najbardziej mogę zrobić, to powiedzieć coś w stylu „nie wiem ile wiarygodne mogę dać do tych wyników, biorąc pod uwagę to, co wiem na temat założeń i procedur, że wszedł do ich uzyskania.” Jest to zbyt niejasne, by nawet powiedzieć. Chęć wyjścia poza tę niejasność była motywacją do napisania mojego postu.

Szczerze mówiąc, moje wątpliwości są oparte na bardziej niż pozornie wątpliwe metody statystyczne. W rzeczywistości widzę to bardziej jako konsekwencję głębszego problemu: połączenie kawalerskiego podejścia do eksperymentalnego projektu w połączeniu z kategorycznym zobowiązaniem do publikowania wyników w ich obecnej postaci (tj. Bez dalszych eksperymentów). Oczywiście, zawsze są przewidywane kolejne projekty, ale po prostu nie wchodzi w rachubę, że ani jeden artykuł nie wyjdzie z, powiedzmy, „lodówki wypełnionej 100 000 próbek”.

Statystyki pojawiają się na zdjęciu jedynie jako środek do osiągnięcia tego najwyższego celu. Jedynym uzasadnieniem dla zatrzaśnięcia się w statystykach (ponieważ są one wtórne w całym scenariuszu) jest to, że frontalne wyzwanie dla założenia „publikacji za wszelką cenę” jest po prostu bezcelowe.

W rzeczywistości mogę wymyślić tylko jedną skuteczną odpowiedź w takich sytuacjach: zaproponować test statystyczny (niewymagający dodatkowych eksperymentów), który naprawdę sprawdza jakość analizy. Ale po prostu nie mam statystyk na ten temat. Moją nadzieją (naiwną z perspektywy czasu) było dowiedzieć się, co mogę studiować, co może pozwolić mi wymyślić takie testy ...

Kiedy to piszę, przychodzi mi do głowy, że jeśli jeszcze nie istnieje, świat mógłby skorzystać z jednej nowej gałęzi statystyki, poświęconej technikom wykrywania i ujawniania „tortur danych”. (Oczywiście nie chodzi mi o to, by dać się ponieść metaforze „tortur”: problemem nie jest sama „tortura danych”, ale fałszywe „ustalenia”, do których może prowadzić.)

multiple-comparisons interpretation eda kjo
źródło

1

@BabakP Ten cytat pojawia się tutaj w sześciu odpowiedziach , w tym w żartach ze statystyk i wątkach z cytatami ze statystyk. (To drugie jest dobrym źródłem odpowiednich cytatów, jeśli kiedykolwiek

polujesz na

7

Nie sądzę, aby istniało jakiekolwiek rozróżnienie między technikami stosowanymi w „szpiegowaniu danych” i w „eksploracyjnej analizie danych” - obraźliwe użycie poprzedniego terminu dotyczy analizy eksploracyjnej wprowadzonej w błąd jako analiza potwierdzająca.

Scortchi - Przywróć Monikę

8

Feynman w książce, do której się odwołujesz, już odpowiada na to pytanie: „Jeśli chce przetestować tę hipotezę [znalezioną podczas eksploracji], ... musi wykonać kolejny eksperyment”. To, co wydaje się pytać, dotyczy tego, czy Feynman mógł być zbyt ekstremalny („trochę przesadzając”): do jakiego stopnia, jeśli w ogóle, czy formalne testowanie hipotez może być uzasadnione, gdy zostały opracowane przez badanie tych samych danych ?

whuber

2

@ whuber: w praktyce jest to jeszcze bardziej dramatyczne, ponieważ często testowanie przy użyciu różnych danych, ale ta sama konfiguracja eksperymentu lub rodzaj eksperymentu nieumyślnie doprowadzi do podobnych wyników.

stycznia

1

@ Stycznia: myślę, że to zależy od twoich danych / eksperymentów. Rozważ np. Badania biologiczne / medyczne. W przypadku danych, które widzę, największa różnica występuje zwykle między pacjentami (podmiotami). Powtórzenie eksperymentu z nowymi pacjentami doprowadzi, mam nadzieję, do podobnych wyników, ale w praktyce często tak nie jest (tj. Wyniki prognoz modeli opracowanych dla pierwszego zestawu pacjentów są znacznie gorsze niż oczekiwano, co oznacza, że wystąpiło przeregulowanie, więc dane w pierwszym eksperymencie były „torturowane”)

cbeleites popiera Monikę

22

Istnieje rozróżnienie, które czasami nie przyciąga wystarczającej uwagi, a mianowicie generowanie hipotez vs. testowanie hipotez lub analiza eksploracyjna vs. testowanie hipotez. Wszystkie brudne sztuczki na świecie mogą wymyślić twój pomysł / hipotezę. Ale kiedy go później przetestujesz, musisz bezwzględnie zabić swoich ukochanych.

Jestem biologiem, który cały czas pracuje z danymi o dużej przepustowości i tak, często wykonuję to „krojenie i krojenie”. Większość przypadków przeprowadzonego eksperymentu nie została starannie zaprojektowana; a może ci, którzy go zaplanowali, nie uwzględnili wszystkich możliwych wyników. Lub ogólne podejście podczas planowania brzmiało: „zobaczmy, co tam jest”. W efekcie powstają drogie, cenne i same w sobie ciekawe zestawy danych, które następnie odwracam, aby wymyślić historię.

Ale to tylko historia (możliwa pora snu). Po wybraniu kilku interesujących kątów - i tutaj jest kluczowy punkt - musisz przetestować go nie tylko z niezależnymi zestawami danych lub niezależnymi próbkami, ale najlepiej z niezależnym podejściem , niezależnym systemem eksperymentalnym.

Znaczenie tej ostatniej rzeczy - niezależnego zestawu eksperymentów, nie tylko niezależnego zestawu pomiarów lub próbek - jest często niedoceniane. Jednak, gdy testujemy 30 000 zmiennych pod kątem znaczącej różnicy, często zdarza się, że chociaż podobne (ale różne) próbki z tej samej kohorty i analizowane tą samą metodą nie odrzucą hipotezy, którą oparliśmy na poprzednim zestawie. Ale potem przechodzimy do innego rodzaju eksperymentu i innej kohorty, a nasze odkrycia okazują się być wynikiem błędu metodologicznego lub mają ograniczone zastosowanie.

Dlatego często potrzebujemy kilku prac kilku niezależnych badaczy, aby naprawdę zaakceptować hipotezę lub model.

Myślę więc, że torturowanie danych jest w porządku, o ile pamiętasz o tym rozróżnieniu i pamiętasz, co robisz, na jakim etapie procesu naukowego jesteś. Możesz użyć faz księżyca lub przedefiniować 2 + 2, o ile masz niezależną weryfikację danych. Aby umieścić to na zdjęciu:

wprowadź opis zdjęcia tutaj

Niestety są tacy, którzy zamawiają mikromacierz, aby zaokrąglić papier po kilku eksperymentach i nie pojawiła się żadna historia, z nadzieją, że analiza wysokiej przepustowości coś pokaże. Lub są zdezorientowani co do całego testowania hipotez vs. generacji.

styczeń
źródło

Przypuszczam, że można interpretować to, co postrzegałem jako „generowanie hipotez”, ale celem manipulacji, o których mówię, jest zdecydowanie publikowanie wyników uzyskanych z „torturowanych” danych i robienie tego na najwyższym - wpływ na dziennik, który przyjmie artykuł. Nie trzeba dodawać, że takie dokumenty nigdy nie zawierają sugestii torturowanych początków ich odkryć. W rzeczywistości, AFAICT, autorzy wcale nie są tym zaniepokojeni. A jednak myślę, że większość czytelników takich gazet mocno zlekceważy wyniki, gdyby dokładnie wiedzieli, ile tortur danych włożono w ich zdobycie ...

kjo

1

@ kjo: generowanie hipotez jest częścią procesu naukowego, który ostatecznie można opublikować. Więc to nie jest powód.

cbeleites obsługuje Monikę

@ Stycznia: zapomniałeś wspomnieć o DoE „weź wszystkie próbki, jakie możemy uzyskać - i tak będzie ich za mało” - co jest najczęstszym DoE, jakie spotykam.

cbeleites obsługuje Monikę

@cbeleites: cóż, nie marzę o krytykowaniu tego podejścia w ogóle; zwykle eksperymenty mogłyby skorzystać z większej liczby powtórzeń. Zgadzam się jednak, że często eksperymentaliści uwzględniają tyle warunków (typy próbek, szczepy, warianty, klasy itp.), Ile jest to fizycznie możliwe, co sprawia, że analiza jest koszmarem, a czasem całkowicie zaciemnia pytanie.

stycznia

12

Mówił to Herman Friedman, mój ulubiony profesor w szkole podstawowej

„jeśli nie jesteś zaskoczony, niczego się nie nauczyłeś”

Rygorystyczne unikanie czegokolwiek poza najbardziej rygorystycznymi testami a priori zdefiniowanych hipotez poważnie ogranicza twoją zdolność do zaskoczenia.

Myślę, że najważniejsze jest to, że jesteśmy uczciwi w tym, co robimy. Jeśli jesteśmy w trybie eksploracyjnym, powinniśmy to powiedzieć. Na drugim końcu, jeden profesor, którego znam, powiedział jej uczniowi, aby zmienił jej hipotezy, ponieważ oryginalne nie okazały się znaczące.

Peter Flom - Przywróć Monikę
źródło

4

Nie ma nic złego w rygorystycznym testowaniu zdefiniowanych a priori hipotez i węszeniu tych samych danych, aby zasugerować kolejne zdefiniowane a priori hipotezy do rygorystycznego przetestowania. A jeśli jesteśmy w trybie nawet nieco eksploracyjnym, powinniśmy to powiedzieć - po prostu powiedz, co naprawdę zrobiliśmy - i pozwól innym decydować dokładnie, jak dużą szczyptą soli chcą wziąć nasze wyniki, bez względu na to, czy jesteśmy przekonani o ich ważności. my sami. Chciałbym dać tę odpowiedź więcej niż jeden głos za podkreślenie uczciwości.

Scortchi - Przywróć Monikę

7

Pozwól mi dodać kilka punktów:

przede wszystkim generowanie hipotez jest ważną częścią nauki. Wyniki nieprzewidywalne (eksploracyjne / opisowe) mogą być publikowane.
IMHO nie stanowi problemu, że eksploracja danych jest wykorzystywana w zbiorze danych i publikowane są tylko części tych ustaleń. Problemy są
- nie opisując ile zostało wypróbowanych
- następnie wyciąganie wniosków, jak gdyby badanie było studium walidacyjnym dla jakiegoś modelu predykcyjnego / badania testowania hipotez
Nauka i rozwój metod to procesy iteracyjne w znacznie bardziej ogólny sposób niż tylko generowanie hipotez - testowanie - generowanie nowych hipotez - testowanie ... IMHO to kwestia profesjonalnego osądu, jaki rodzaj właściwego postępowania jest konieczny na jakim etapie (patrz przykład poniżej).

Co robię:

staraj się uświadamiać ludzi o optymistycznym uprzedzeniu,
które się pojawia Kiedy mam szansę, pokazuję ludziom, jak duża jest różnica (wykonalna głównie przy niższym poziomie tego samego problemu, np. porównanie danych zweryfikowanych niezależnie od pacjenta z wydajnością wewnętrzną szacunki procedur optymalizacji hiperparametrów, takich jak wyszukiwanie siatki paraterów SVM, „modeli łączonych”, takich jak PCA-LDA itd. Nie jest to realne do pogłębiania danych, ponieważ jak dotąd nikt nie dał mi pieniędzy na zarobienie prawdziwa replika rozsądnych badań ...)
w przypadku artykułów, których jestem współautorem: nalegaj na omówienie ograniczeń wniosków. Upewnij się, że wnioski nie zostały sformułowane w sposób bardziej ogólny niż pozwala na to badanie.
Zachęć współpracowników do skorzystania z ich wiedzy eksperckiej na temat badania i procesu generowania danych, aby zdecydować, jak traktować dane zamiast przeprowadzania kosztownej (pod względem wielkości próby należy to zrobić właściwie) optymalizacji model - „hiper” parametry (takie jak jakiego rodzaju wstępne przetwarzanie należy zastosować).
równolegle: staraj się uświadomić ludziom, jak kosztowny jest ten biznes optymalizacyjny, jeśli zostanie właściwie przeprowadzony (niezależnie od tego, czy nazywa się to eksploracją, czy nie jest nieistotny, jeśli zostanie wykonany nieprawidłowo, będzie miał podobne wyniki, jak pogłębianie danych), np. Beleites, C. i Neugebauer , U. i Bocklitz, T. i Krafft, C. i Popp, J .: Planowanie wielkości próby dla modeli klasyfikacji. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323
Oto badanie, które dowodzi, że ta ślepa próba obejścia jest również często daremna, np.
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: Łamanie trendów w przetwarzaniu wstępnym ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(wypróbowali dużą liczbę kombinacji kroków wstępnego przetwarzania i stwierdzili, że bardzo niewiele prowadzi do lepszych modeli niż brak wstępnego przetwarzania)
Podkreśl, że nie torturuję moich danych bardziej niż to konieczne:
przykład :

Całe wstępne przetwarzanie zostało podjęte wyłącznie na podstawie wiedzy spektroskopowej i nie przeprowadzono wstępnego przetwarzania opartego na danych.

Obserwacji papieru przy użyciu tych samych danych, jak na przykład (inny) tworzenie teorii odczytuje

O wszystkim wstępnym przetwarzaniu zadecydowała wiedza spektroskopowa, nie uwzględniono etapów opartych na danych i nie przeprowadzono optymalizacji parametrów. Sprawdziliśmy jednak, czy projekcja PLS [45] widm na 25 zmiennych utajonych jako wstępne przetwarzanie dla treningu LR nie doprowadziła do więcej niż nieznacznych zmian w prognozie (patrz rysunek uzupełniający S.2).

Ponieważ tymczasem zostałem wyraźnie poproszony (na konferencji przez redaktora czasopisma CILS) o porównanie modeli z wstępnym przetwarzaniem PLS.
Weź praktyczny punkt widzenia: np. W badaniu gwiaździaka połączonym powyżej, oczywiście nadal decydowałem o niektórych punktach po spojrzeniu na dane (takie jak jaki próg intensywności odpowiada pomiarom wykonanym spoza próbki - które następnie zostały odrzucone). Inne decyzje, o których wiem, że są bezkrytyczne (liniowy vs. kwadratowy poziom podstawowy: moje doświadczenie z tego rodzaju danymi sugeruje, że to tak naprawdę niewiele się zmienia - co również jest w pełni zgodne z tym, co Jasper Engel znalazł na różnych danych podobnego typu, więc Nie spodziewałbym się, że wyniknie z decyzji o rodzaju linii bazowej, patrząc na dane (artykuł podaje argument, dlaczego jest to rozsądne).
Na podstawie przeprowadzonych przez nas badań możemy teraz powiedzieć, co należy rozwiązać, a co zmienić. A ponieważ wciąż jesteśmy na stosunkowo wczesnym etapie opracowywania metody (patrząc na próbki ex vivo ), nie warto poświęcać czasu na wykonanie wszystkich „prac domowych”, które ostatecznie będą potrzebne, zanim metoda będzie mogła zostać zastosowana in vivo . Np. Na obecnym etapie klasyfikacji gwiaździaka walidacja ponownego próbkowania jest bardziej rozsądnym wyborem niż zestaw testów zewnętrznych. Nadal podkreślam, że w pewnym momencie potrzebne będą prawdziwie zewnętrzne badania walidacyjne, ponieważ niektóre cechy wydajności można zmierzyć tylko w ten sposób (np. Efekty dryfu / udowodnienia, że możemy je poprawić). Ale teraz, gdy wciąż bawimy się ex-vivopróbki i rozwiązują inne części dużego problemu (w powiązanych dokumentach: jak radzić sobie z przypadkami granicznymi), zdobycie użytecznej wiedzy z właściwego badania walidacyjnego ex vivo jest zbyt niskie, aby było warte wysiłku (IMHO: chyba że które zostały wykonane w celu zmierzenia błędu systematycznego spowodowanego pogłębianiem danych).
Kiedyś przeczytałem argument o standardach statystycznych i sprawozdawczych oraz o tym, czy taka decyzja powinna być konieczna dla czasopisma (nie pamiętam, który), który mnie przekonał: wyrażono pogląd, że redaktorzy nie muszą próbować uzgadniać i egzekwować niektóre standardy (co spowoduje wiele bezskutecznych dyskusji), ponieważ:
- kto stosuje odpowiednie techniki, jest zwykle bardzo świadomy / dumny z tego i dlatego (i powinien) w związku z tym szczegółowo opisać, co zostało zrobione.
- Jeśli określony punkt (np. Pogłębianie danych, walidacja niezależna od poziomu pacjenta) nie jest jasno określony, domyślnym założeniem dla recenzentów / czytelników jest to, że badanie nie przestrzegało właściwych zasad w tym pytaniu (być może dlatego, że nie „ wiem lepiej)

cbeleites obsługuje Monikę
źródło

4

Czasami rzeczy, które postrzegasz jako „tortury danych”, tak naprawdę nie są. Nie zawsze jest z góry jasne, co dokładnie zrobisz z danymi, aby podać, jak uważasz, prawdziwe wyniki eksperymentu, dopóki go nie zobaczysz.

Na przykład, mając dane o czasie reakcji dla zadania decyzyjnego, często chcesz odrzucić czasy, które nie dotyczą decyzji (tj. Gdy idą tak szybko, to oczywiście zgadują i nie podejmują decyzji). Możesz wykreślić dokładność decyzji względem RT, aby zobaczyć, gdzie na ogół występuje zgadywanie. Ale dopóki nie przetestujesz tego konkretnego paradygmatu, nie będziesz w stanie wiedzieć, gdzie są granice (w czasie, a nie dokładność). Dla niektórych obserwatorów taka procedura wygląda jak torturowanie danych, ale dopóki nie ma to nic wspólnego z testami hipotez (nie dostosowujesz ich na podstawie testów), to nie torturuje danych.

Szpiegowanie danych podczas eksperymentu jest w porządku, pod warunkiem, że zostało wykonane we właściwy sposób. Prawdopodobnie nieetyczne jest umieszczanie eksperymentu w czarnej skrzynce i przeprowadzanie analizy tylko wtedy, gdy przeprowadzono zaplanowaną liczbę uczestników. Czasami trudno jest stwierdzić, że występują problemy z eksperymentem, dopóki nie spojrzysz na dane i powinieneś jak najszybciej przyjrzeć się niektórym. Podglądanie danych jest silnie dyskredytowane, ponieważ jest równoznaczne z sprawdzeniem, czy p <0,05 i podjęciem decyzji o kontynuacji. Istnieje jednak wiele kryteriów, według których możesz kontynuować gromadzenie, które nie powodują szkodliwych błędów.

Powiedz, że chcesz się upewnić, że oszacowanie wariancji mieści się w znanym prawdopodobnym zakresie. Małe próbki mogą mieć dość dalekie szacunki wariancji, więc zbieraj dodatkowe dane, dopóki nie dowiesz się, że próbka jest bardziej reprezentatywna. W poniższej symulacji spodziewam się, że wariancja w każdym warunku będzie wynosić 1. Zrobię coś naprawdę szalonego i spróbuję każdej grupy niezależnie dla 10 próbek, a następnie dodam podmioty, aż wariancja będzie bliska 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Więc właśnie wpadłem w szał z pobieraniem próbek i sprawiam, że moje wariancje są bliskie oczekiwaniom i nadal nie mam dużego wpływu na alfa (to trochę poniżej 0,05). Kilka innych ograniczeń, takich jak N, musi być równych w każdej grupie i nie może być więcej niż 30, a alfa ma rację na 0,05. Ale co z SE? Co, jeśli zamiast tego spróbuję nadać SE określoną wartość? To naprawdę interesujący pomysł, ponieważ z kolei z góry ustalam szerokość CI (ale nie lokalizację).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Znów alfa zmieniła niewielką ilość, mimo że pozwoliłem N wędrować do 46 z oryginalnej 10 w oparciu o szpiegowanie danych. Co ważniejsze, wszystkie SE mieszczą się w wąskim zakresie w każdym z eksperymentów. Łatwo jest dokonać niewielkiej korekty alfa, aby to naprawić, jeśli jest to problem. Chodzi o to, że niektóre szpiegowanie danych niewiele szkodzi, a nawet może przynieść korzyści.

(BTW, to, co pokazuję, nie jest jakąś magiczną kulą. W rzeczywistości nie zmniejszasz liczby pacjentów na dłuższą metę, ponieważ robi to, ponieważ moc dla symulacji różnych N jest mniej więcej taka sama, jak dla symulacji średnich N )

Żadne z powyższych nie jest sprzeczne z najnowszą literaturą na temat dodawania przedmiotów po rozpoczęciu eksperymentu. W tych badaniach przyjrzeli się symulacjom, w których dodawano badanych po wykonaniu testu hipotezy, aby obniżyć wartość p. To wciąż źle i może wyjątkowo zawyżać alfa. Ponadto bardzo lubię odpowiedzi ze stycznia i Petera Floma. Chciałem tylko zauważyć, że patrzenie na dane podczas ich zbierania, a nawet zmiana planowanego N podczas zbierania, niekoniecznie są złymi rzeczami.

Jan
źródło

Żadna z tych rzeczy nie jest „dobra” w tym sensie, że nie wpływa na rozkład próbkowania statystyk testowych. Oczywiście doskonale rozsądne reakcje na niespodzianki (por. Odpowiedź Piotra), ale osłabiają nieco potwierdzający charakter eksperymentu, zwiększając „stopnie swobody badacza”. Właśnie w celu uniknięcia niespodzianek przeprowadzamy badania pilotażowe w celu ustalenia protokołu i wcześniejszego zdefiniowania reguł zatrzymywania, biorąc je pod uwagę w analizie. Celem jest dobrze zdefiniowana procedura, którą można niezależnie replikować w celu wykazania poprawności wyników.

Scortchi - Przywróć Monikę

Możesz samodzielnie uruchomić symulacje, ale zasada zatrzymania oparta na wariancji (powyżej rozsądnego minimum N) nie będzie miała wpływu na alfa i wygeneruje oczekiwaną moc. Możesz nawet mieć regułę zatrzymywania opartą na SE i uzyskać spójne SE, a te nie będą miały wpływu na alfa lub beta. Po prostu nie możesz mieć popartej na regule zatrzymania. Wszystkie krytyki modyfikacji N dotyczą robienia tego po teście hipotez (należy uwzględnić także inne rzeczy). Istnieje potencjał, że powoduje to pokusę ... ale ja to ignoruję.

Jan

Jeśli chodzi o rozkład czasu reakcji, sugerujesz, że lepiej jest wybrać stały punkt cięcia na podstawie pilota, niż zastanawiać się, kiedy każdy obiekt zgaduje w oparciu o regresję logistyczną i użyć własnego punktu cięcia? (oczywiście punkt odcięcia dokładności jest ustalony, ale nie jeden czas reakcji).

Jan

(1) Reguła zatrzymywania oparta na wariancji: Wpływa na oszacowanie wariancji, a zatem może wpływać na poziomy błędów podczas analizy eksperymentu, tak jakby wielkość próbki została wcześniej ustalona. Istnieje napięcie między zastrzeżeniem „powyżej rozsądnego minimalnego N” podanego w komentarzu a „małymi rozmiarami próby”, o których mowa w odpowiedzi; bez wątpienia masz statystyki, aby wiedzieć, jakie przybliżenia są wystarczająco dobre, ale nie wszyscy to robią. Mówiąc bardziej ogólnie, nienagannym podejściem jest jasne zdefiniowanie reguły zatrzymania przed eksperymentem.

Scortchi - Przywróć Monikę

(2) Rozkład czasu reakcji: Nie (chociaż wprawdzie miałem na myśli coś takiego); Sugerowałem, że bez względu na metodę zastosowaną do usunięcia niewiarygodnych obserwacji lepiej ją opracować na podstawie badania pilotażowego, a następnie zastosować w eksperymencie potwierdzającym.

Scortchi - Przywróć Monikę

0

Jest to naprawdę kulturowy problem niezrównoważonego myślenia, w którym stronniczość publikacji prowadzi do faworyzowania pozytywnych wyników, a nasza konkurencyjna natura wymaga od redaktorów i badaczy tworzenia interesujących wyników, które są nowe lub sporne, na przykład w sensie obalanie wyników kogoś innego. W badaniach medycznych poczyniono znaczne postępy w celu rozwiązania tego problemu poprzez obowiązkową rejestrację badań i publikację wyników wraz z zapisem badań porzuconych, które również zostaną podane do wiadomości publicznej. Rozumiem, że skoro publikacja w czasopismach poświęconych nieudanym badaniom może być niepraktyczna, planuje się utrzymywanie ich ogólnodostępnej bazy danych. Nietypowe wyniki, których nie można odtworzyć, niekoniecznie wynikają z wykroczenia, jak w przypadku być może 50,

Stosowanie różnych metod niekoniecznie jest również rozwiązaniem. Na przykład, jaki chemik miksowałby odczynniki na różne sposoby w różnych warunkach i oczywiście spodziewałby się takich samych wyników?

Robert Jones
źródło

„Eksploracja” danych a „szpiegowanie” danych / „torturowanie”?

Odpowiedzi: