Czy jako recenzent mogę uzasadnić żądanie podania danych i kodu, nawet jeśli czasopismo tego nie robi?

23

Ponieważ nauka musi być odtwarzalna, z definicji coraz częściej uznaje się, że dane i kod są zasadniczym składnikiem odtwarzalności, o czym dyskutuje Okrągły Stół Yale do udostępniania danych i kodów .

Czy przeglądając manuskrypt czasopisma, który nie wymaga udostępniania danych i kodu, mogę poprosić o udostępnienie danych i kodu

  1. do mnie w momencie przeglądu
  2. publicznie w momencie publikacji (czasopismo obsługuje suplementy)

jak mogę sformułować taką prośbę?


aktualizacja : chociaż interesuje mnie ogólny przypadek, ten konkretny przypadek składa się z metaanalizy ze wszystkimi wcześniej opublikowanymi danymi, a kod to proste modele liniowe w SAS

z drugiej strony możliwość wnioskowania między badaniami (co jest celem metaanalizy) zostałaby znacznie zwiększona, gdyby więcej badań dostarczyło surowych danych

aktualizacja 2 :

Poprosiłem redaktora o dane i kod do celów recenzji, redaktor uznał to za uzasadnione i otrzymałem żądany materiał (wystarczający, ale z tajemniczymi nazwami zmiennych, bez metadanych i kilkoma wbudowanymi komentarzami) w ciągu jednego dnia.

David LeBauer
źródło
3
Osobiście byłbym w porządku z kodem w prawie każdych okolicznościach. Dane to kolejny problem. O ile nie jest to już publicznie dostępne, prawdopodobnie nie będę mieć uprawnień do udostępniania go nikomu. Podejrzewam, że w wielu przypadkach żądanie danych jest nieuzasadnione.
Andy W
4
To brzmi jak coś, o czym powinieneś porozmawiać ze swoim redaktorem lub redaktorem. Jeśli wykonują swoją pracę, powinni być w stanie udzielić ci wskazówek i prawdopodobnie będą stanowić punkt kontaktowy dla autorów w przypadku każdego takiego żądania.
kardynał
1
Wydaje mi się, że wiele przykładów i wynikająca z nich dyskusja oparta jest na anegdotycznych sytuacjach, które mogą się znacznie różnić w zależności od dyscypliny i danych, o których mówimy. Pewne są sytuacje, w których rozpowszechnianie danych jest całkowicie uzasadnione, ale niekoniecznie charakteryzuje to wszystkie sytuacje. To pytanie bardzo szybko zamienia się w rant!
Andy W
1
@ Czy masz jakieś sugestie, jak unikać rantów? np. rozróżnienia, które należy wprowadzić w PO lub zmiany w odpowiedziach (w końcu jest to CW).
Abe
1
Myślę, że ten formularz ma nastawienie selekcyjne :-). Większość z nas jest tutaj, ponieważ większość z nas w jakiś sposób popiera pomysł PO.
suncoolsu,

Odpowiedzi:

7

Jeśli chodzi o pozyskiwanie danych przez recenzenta, masz prawo do nich, jeśli potrzebujesz ich do poprawnego uzupełnienia recenzji. Więcej recenzentów powinno prosić o dane i je oceniać. Wiele czasopism ma zasady, które mogą wymagać danych i kodu analizy do celów przeglądu.

Dostępność w momencie publikacji nie jest dla mnie jasna. Wygląda na to, że mówisz, że chcesz zmusić problem do publicznego udostępnienia danych jako warunku publikacji. To zły pomysł, jeśli nie jest to już polityka dziennika. Sprawiasz, że publikacja staje się niesprawiedliwym, ruchomym celem. Poddali się, oczekując, że nie będzie to wymagane, a ty, ani redaktor, powinieneś zmienić grę.

Bez wiedzy wielu badaczy finansowanych ze środków publicznych naukowcy są zobowiązani do publicznego udostępnienia swoich danych. Na przykład większość grantów NIH zawiera klauzule, w których badacz musi otrzymać swoje dane. Większość rządowych agencji przyznających dotacje stosuje klauzule udostępniania danych, które zmuszają badacza do dzielenia się tym, co znaleźli (być może siła jest nieco silna, biorąc pod uwagę, że bardzo trudno jest stracić dotację w związku z tym ... być może stracić odnowienie). Społeczeństwo zapłaciło za dane, dlatego społeczeństwo ma do nich prawo - w przypadku badań na ludziach, uprawnione do nich anonimowe.

Niektóre z najdroższych i wrażliwych danych, które należy gromadzić, ludzkie dane FMRI, są również jednymi z najczęściej udostępnianych publicznie. Nie tylko PLoS, ale główne czasopisma w tej dziedzinie wymagają przedłożenia danych i utrzymania banku danych dostępnych publicznie. Myślę, że wiele mówi to ludziom, którzy sprzeciwiają się ze względu na koszty (jest to bardzo kosztowne) i prywatność (to dane ludzkie z małych badań i czasami wyjątkowe populacje kliniczne, które mogą być bardzo wrażliwe). Są to powody, dla których dane te są bardziej wartościowe dla społeczeństwa. Badacze, którzy nie ujawniają takich danych, wyrządzają krzywdę ludziom, którzy je kupili (wszystkim), i potrzebują lekcji na temat ich obowiązków poza ich małym laboratorium i konkursem publikacyjnym.

Jeśli badania były finansowane ze środków prywatnych, naprawdę finansowane ze środków prywatnych, to powodzenia.

Jan
źródło
Zgadzam się z większością tego - są już wymagania dotyczące ujawnienia danych - zwykle innym wykwalifikowanym badaczom - w ramach grantów finansowanych przez NIH i tym podobnych. Ale myślę, że rozszerzenie tego na wymóg ad hoc publikacji znacznie przekracza rolę recenzenta.
Fomite,
1
(+1) Dokładna, dobrze wyartykułowana odpowiedź. Należy pamiętać, że ta strona ma dość międzynarodową publiczność. Mam nadzieję, że więcej badaczy przyjmie wspólne podejście do swoich badań i danych, nawet jeśli nie będzie NIH ani innej organizacji, która wykręciłaby rękę.
kardynał
EpiGrad, na wypadek, gdyby odpowiedź nie była jednoznaczna, czułem, że nakładanie ad hoc wymogu publikacji nie tylko przekroczyło granice recenzenta, ale także edytora.
John,
Kardynale, dzięki za komplement. Dziękuję również za przypomnienie. Staram się pamiętać, że strona jest międzynarodowa. Tak duży jak NIH, nie ma go w moim kraju. ;)
John,
@Jan. Tak - właśnie zapomniałem postawić +1, zgadzając się z tobą :)
Fomite
6

Oddzielne rozwiązanie tych dwóch sytuacji:

Jako recenzent: Tak, myślę, że miałbyś podstawy, aby poprosić o wyświetlenie danych lub kodu. Ale gdybym był tobą, przygotowałbym się na takie rzeczy, jak uproszczony kod lub podpróbka danych. Ludzie wdrażają przyszłe badania, które nie są zgłaszane w tym dokumencie w kodzie przez cały czas, a ty nie masz prawa do tego kodu. Ponieważ zajmuję się głównie badaniami biomedycznymi, byłbym również przygotowany na konieczność poradzenia sobie z dość restrykcyjnymi umowami o wykorzystywanie danych.

W samym czasopiśmie: Nie. Jeśli badacz chce odtworzyć moje wyniki, może zwrócić się do mnie z prośbą o kod - dlatego mamy odpowiednich autorów. W przypadku danych absolutnie nie, pod żadnym pozorem. Moje dane podlegają umowom o poufności i umowom o poufności - nie będą one tylko podawane do wiadomości publicznej. Jeśli chcępubliczny zestaw danych, mógłbym zasymulować zestaw danych o podobnych właściwościach (tj. dane sieciowe „Faux-Mesa” dostępne w jednym z pakietów sieciowych dla R), ale jako recenzent nie masz wezwania do wymuszenia tego . Jeśli jest to wymóg obowiązujący w całym czasopiśmie, autorzy wiedzieli, że ich dane / kod będą publiczne podczas przesyłania, ale jeśli nie, to nie. Twoja rola polega na ocenienie jakości samego artykułu (stąd nie mam nic przeciwko temu do celów recenzji), a nie wykorzystywaniu twojej zdolności do przyczyniania się do akceptacji / odrzucenia artykułu, aby popchnąć to, co zasadniczo jest filozoficzne / polityczne poza zakresem czasopisma.

W najlepszym razie umieściłbym w swoich komentarzach „zdecydowanie nalegam na autorów, aby udostępnili swój kod i dane”, ale nie wyraziłbym tego mocniej, i nie wstawiłbym tego formalna lista „Rzeczy, które moim zdaniem wymagają naprawy, zanim ujrzy światło dzienne”.

Fomite
źródło
Właśnie zauważyłem wasze zmiany: w tym przypadku, jeśli chodzi o papier, odpowiedź jest w rzeczywistości silniejszym „nie” - zakładając, że papier ma cytaty. Jeśli celem wniosku jest „badanie odtwarzalne”, a dane można znaleźć publicznie, nie ma powodu, dla którego badacz, który chciałby potwierdzić ustalenia, nie mógł tego zrobić samodzielnie. Ponadto, jeśli chodzi o ocenę naukową, a nie tylko wykazanie, że i ty możesz kliknąć „Uruchom” i uzyskać te same wyniki, samodzielne przejście przez proces wyszukiwania i abstrakcji w literaute jest częścią weryfikacji wyniku.
Fomite
aby badania były odtwarzalne, należy udostępnić wersję kodu i danych wykorzystywanych w analizie, a kod niewykorzystany w analizie nie byłby oczekiwany (ani koniecznie istotny).
David LeBauer,
@EpiGrad: Na pewnym poziomie nie do końca zgadzam się z tym silnym „ nie” . Keith Baggerly ostatnio ewangelizuje ten temat i robi kilka interesujących spostrzeżeń. Patrz na przykład KA Baggerly i KR Coombes, Wyprowadzanie chemowrażliwości z linii komórkowych: Bioinformatyka kryminalistyczna i powtarzalne badania w biologii o dużej przepustowości , Ann. Appl. Stat. , tom 3, nr. 4, s. 1309–1334. Istnieje również wersja ARXIV .
kardynał
Znam bardzo niewielu badaczy finansowanych z grantów, którzy mają problemy z poufnością i poufnością, które rzeczywiście ograniczają publikację odpowiednio anonimowych danych. Jeśli jesteś w takiej sytuacji, jest to dość rzadki przypadek.
John,
@EpiGrad Kwestionuję również silne nie . Metody zastosowane w celu przejścia od surowych danych do metryki pochodnej w metaanalizie często wymagają dużego zestawu założeń związanych z różnicami w metodologii i interpretacji, które występują na poziomie poszczególnych badań. W tym przypadku reprezentowanych jest ponad 200 badań, więc czas niezbędny do zrekonstruowania zestawu danych byłby wygórowany - i ostatecznie zahamowałby ostateczny cel rozwoju nauki.
David LeBauer,
5

Jak mówi John, dostępność danych dla recenzentów powinna być oczywista; dokładny przegląd powinien obejmować powtórzenie analizy i jako taki wymaga dostępu do danych.

Jeśli chodzi o publiczną dostępność danych po publikacji, powiedziałbym, że bitwę należy toczyć raczej w czasopiśmie niż w odniesieniu do konkretnego zgłoszenia.

Mówiąc bardziej ogólnie, agencje finansujące i IRB stają się coraz bardziej świadome, że udostępnianie danych jest niezbędnym naukowo i etycznie elementem badań. Zwiększając dostępność ponownej analizy, która może przynieść nowe wyniki prawidłowych błędnych raportów, udostępnianie danych zwiększa potencjalne korzyści z badań, modyfikując w ten sposób kompromis koszt / korzyść na korzyść uczestników badania. Z pewnością konieczne jest poinformowanie uczestników o możliwości udostępnienia ich danych, a także ustanowienie zabezpieczeń zapobiegających zwiększonemu ryzyku identyfikacji uczestników, ale można to osiągnąć w większości przypadków. W moich własnych badaniach zapewniam uczestników (i moją IRB), że (1) dane będą przechowywane w silnie zaszyfrowanym formacie (aktualizowanym wraz z postępem technologii deszyfrowania),

Mike Lawrence
źródło
1

Nie mam z tym żadnego doświadczenia, ale wydaje mi się, że możesz nalegać na numer 1 w ramach własnej należytej staranności przy przeglądaniu ich wyników. Nie wiem jednak, jak możesz nalegać na # 2.

Wayne
źródło