Jak definiujemy „powtarzalne badania”?

50

Pojawiło się to teraz w kilku pytaniach i zastanawiałem się nad czymś. Czy pole jako całość przesunęło się w kierunku „odtwarzalności”, koncentrując się na dostępności oryginalnych danych i omawianego kodu?

Zawsze uczono mnie, że istotą odtwarzalności niekoniecznie jest, jak już mówiłem, możliwość kliknięcia przycisku Uruchom i uzyskania takich samych wyników. Podejście oparte na danych i kodzie wydaje się zakładać, że dane są prawidłowe - że nie ma wady w gromadzeniu samych danych (często w sposób oczywisty fałszywe w przypadku oszustw naukowych). Koncentruje się również na pojedynczej próbce populacji docelowej, a nie na powtarzalności wyników dla wielu niezależnych próbek.

Dlaczego zatem kładzie się nacisk na możliwość ponownego uruchomienia analizy, a nie na powtórzenie badania od podstaw?

Artykuł wymieniony w komentarzach poniżej jest dostępny tutaj .

Fomite
źródło
Dobre pytanie ! W mojej odpowiedzi zamieściłem odniesienie do artykułu donoho, ale jakie są twoje pisemne odniesienia do powtarzalnych badań?
robin girard
Reiter i Kinney opublikowali artykuł w wydanym w tym miesiącu numerze Epidemiology zatytułowanym „Udostępnianie poufnych danych do celów badawczych: elementarz”, który pomaga dowiedzieć się, jak udostępnić kod i dane w okolicznościach, w których nie można po prostu podrzucić pliku .csv, i należy zapewnić, że poufność pozostanie nienaruszona.
Fomite
@EpiGrad, odkąd minął „ten miesiąc”, pomocne byłoby posiadanie linku do artykułu. Dziękujemy za zadanie wspaniałego pytania, które przyczynia się do analizy CV i nauki / danych!
gung - Przywróć Monikę
@ gung Który to artykuł?
Fomite,
@EpiGrad tuż powyżej, Reiter i Kinney. +1 btw
gung - Przywróć Monikę

Odpowiedzi:

41

„Badania powtarzalne” jako odtwarzalna analiza

Badania powtarzalne to termin używany w niektórych dziedzinach badawczych w odniesieniu do przeprowadzania takich analiz

  • kod przekształca surowe dane i metadane w przetworzone dane,
  • kod uruchamia analizy danych, oraz
  • kod zawiera analizy w raporcie.

Gdy takie dane i kod są udostępniane, pozwala to innym badaczom na:

  • wykonywać analizy nie zgłoszone przez pierwotnych badaczy
  • sprawdź poprawność analiz przeprowadzonych przez oryginalnych badaczy

Takie wykorzystanie można zaobserwować w dyskusjach na temat technologii takich jak Sweave . Np. Friedrich Leisch pisze w kontekście Sweave, że „raport może być automatycznie aktualizowany, jeśli zmienią się dane lub analiza, co pozwala na prawdziwie powtarzalne badania”. Można to również zobaczyć w widoku zadań CRAN dotyczącym powtarzalnych badań, w którym stwierdza się, że „celem powtarzalnych badań jest powiązanie konkretnych instrukcji z analizą danych i danymi eksperymentalnymi, aby odtworzyć stypendium, lepiej je zrozumieć i zweryfikować”.

Szersze użycie terminu „odtwarzalność”

Powtarzalność jest podstawowym celem nauki. To nie jest nowe. Raporty z badań zawierają sekcje dotyczące metod i wyników, które powinny opisywać, w jaki sposób dane zostały wygenerowane, przetworzone i przeanalizowane. Ogólna zasada jest taka, że ​​dostarczone dane powinny być wystarczające, aby umożliwić odpowiednio kompetentnemu naukowcowi pobranie dostarczonych informacji i powtórzenie badania.

Powtarzalność jest również ściśle związana z koncepcjami powtarzalności i uogólnienia.

Zatem termin „odtwarzalne badania”, wzięty dosłownie, w odniesieniu do technologii takich jak Sweave, jest mylący, biorąc pod uwagę, że sugeruje on szersze znaczenie niż obejmuje. Ponadto, prezentując technologie takie jak Sweave badaczom, którzy nie korzystali z takich technologii, tacy badacze często są zaskoczeni, gdy nazywam ten proces „powtarzalnymi badaniami”.

Lepszy termin niż „powtarzalne badania”

Biorąc pod uwagę, że „odtwarzalne badania” stosowane w kontekstach podobnych do Sweave odnoszą się tylko do jednego aspektu odtwarzalnych badań, być może należy przyjąć alternatywny termin. Możliwe alternatywy to:

Wszystkie powyższe terminy są dokładniejszym odzwierciedleniem tego, co pociągają za sobą analizy podobne do Sweave. Powtarzalna analiza jest krótka i słodka. Dodanie „danych” lub „danych statystycznych” dodatkowo wyjaśnia sprawy, ale także sprawia, że ​​termin jest zarówno dłuższy, jak i węższy. Ponadto „statystyczny” ma wąskie i szerokie znaczenie, a na pewno w wąskim znaczeniu większość przetwarzania danych nie jest statystyczna. Tak więc szerokość implikowana przez termin „odtwarzalna analiza” ma swoje zalety .

Nie chodzi tylko o odtwarzalność

Innym dodatkowym problemem związanym z terminem „powtarzalne badania” jest to, że celem technologii podobnych do Sweave nie jest po prostu „odtwarzalność”. Istnieje kilka powiązanych ze sobą celów:

  • Odtwarzalność
    • Czy analizy można łatwo ponownie uruchomić, aby przekształcić surowe dane w raport końcowy z tymi samymi wynikami?
  • Poprawność
    • Czy analiza danych jest zgodna z intencjami badacza?
    • Czy intencje badacza są prawidłowe?
  • Otwartość
    • Przejrzystość, odpowiedzialność
      • Czy inni mogą sprawdzić i zweryfikować dokładność wykonanych analiz?
    • Rozszerzalność, modyfikowalność
      • Czy inni mogą modyfikować, rozszerzać, ponownie wykorzystywać i mieszać dane, analizy lub oba te elementy w celu tworzenia nowych prac badawczych?

Istnieje argument, że odtwarzalna analiza powinna promować prawidłowe analizy, ponieważ istnieje pisemny zapis analiz, które można sprawdzić. Ponadto, jeśli dane i kod są udostępniane, tworzy to odpowiedzialność, która motywuje badaczy do sprawdzenia ich analiz i umożliwia innym badaczom odnotowywanie poprawek.

Powtarzalna analiza jest również ściśle zgodna z koncepcjami dotyczącymi otwartych badań. Oczywiście badacz może korzystać z technologii podobnych do Sweave tylko dla siebie. Zasady otwartych badań zachęcają do udostępniania danych i kodu analizy, aby umożliwić większe ponowne wykorzystanie i odpowiedzialność.

To nie jest tak naprawdę krytyka użycia słowa „odtwarzalność”. Raczej podkreśla, że ​​stosowanie technologii typu Sweave jest konieczne, ale niewystarczające do osiągnięcia otwartych celów badań naukowych.

Jeromy Anglim
źródło
2
(+1) Świetna odpowiedź, bardzo dobre punkty. Zgadzam się, że powinniśmy nazwać to, co Sweave i przyjaciele wykonują powtarzalną analizę .
NRH
1
(+1) ładny przegląd. ale chciałbym zauważyć, że termin „surowe dane” jest niejednoznaczny i może wprowadzać w błąd - dane są na ogół przetwarzane przed etapem, w którym są uważane za „surowe”, choćby po to, aby wprowadzić je do komputera.
David LeBauer,
@Jeromy Anglim To świetna odpowiedź, która wnika w sedno tego, co mnie denerwuje w semantyce „odtwarzalnych badań” - służy do opisu procesu, który ma miejsce dopiero po zakończeniu procesu generowania danych. Podoba mi się pojęcie „odtwarzalnej analizy” jako terminu.
Fomite
+1 @Jeromy Anglim, ostatnio skontaktowałem się z autorem, aby sprawdzić, czy może on / ona udostępnić Rkod użyty w publikacji, autor odmówił tego i wskazał mi publikację. Czy Twoim zdaniem uważasz to za brak otwartości na powtarzalne badania, czy też wystarczy, aby metodologia była wyraźna w czasopiśmie i pozwolić innym programom na samodzielne zaprogramowanie kodu? Dzięki
prezenter
11

Dostęp do danych i kodu do analizy w łatwej do wykonania formie jest warunkiem koniecznym powtarzalnych badań. Po sprawdzeniu, czy analiza działa, możesz zastąpić własny kod / dane, w których jesteś sceptyczny wobec oryginalnego autora. Powiedziałbym, że większość artykułów zawierających statystyki, które czytam, zawiera co najmniej jedną część metodologii, która jest niejasna. Moje próby odtworzenia tych analiz są często nieskuteczne (i zawsze czasochłonne), ale bardzo trudno jest powiedzieć, czy dzieje się tak z powodu oszustwa, błędu ludzkiego, czy (o wiele bardziej prawdopodobne) mojego rozwiązania tych dwuznaczności inaczej niż autor. Tak więc posiadanie danych + kodu dla artykułu nie gwarantuje, że jego wnioski są prawdziwe, ale znacznie ułatwia ich krytykę lub rozszerzenie.

Także „powtarzalne badania” to kwestia stopnia. Tak więc powtarzalny ruch badawczy może być postrzegany jako zachęcający do badań, które są „bardziej odtwarzalne” niż norma, zamiast wymagać, aby badania spełniały pewien minimalny próg. Sądzę, że „uwolnienie danych i kodu” jest teraz modne, ponieważ jest to stosunkowo łatwy i niezagrożony krok.

Aaron
źródło
9

Ponowne uruchomienie wszystkiego jest punktem wyjścia do powtarzalnych badań. Pozwala pokazać, że faktycznie korzystasz z tej samej procedury. Potem - i dopiero potem - możesz kontynuować badania swojego rówieśnika. Innymi słowy, ścisłej odtwarzalności nie należy postrzegać jako czasu, w którym badania posuwają się naprzód, ale jako punkt orientacyjny, konsensus , coś, na co ludzie się zgadzają. Czy to nie jest fundamentalne, aby iść dalej?

Ponadto, zgodnie z dyskusją Donoho (przeczytaj część 2 „skandal”), celem powtarzalnych badań jest również sprawdzenie odporności danego kodu. Najpierw baw się kodem, wprowadzając drobną modyfikację, której nie zrobiono w papierze (ponieważ nie chcemy dokumentów z 30 cyframi ...). Myślę, że koncepcja powtarzalnych badań w literaturze zawiera ideę silnego, solidnego punktu zwrotnego. Niemal zawiera pomysł pójścia dalej.

Robin Girard
źródło