Kompletne merytoryczne przykłady odtwarzalnych badań z wykorzystaniem R.

71

Pytanie: Czy są jakieś dobre przykłady powtarzalnych badań z wykorzystaniem R, które są bezpłatnie dostępne online?

Idealny przykład: W szczególności idealne przykłady zapewniłyby:

  • Surowe dane (i najlepiej metadane wyjaśniające dane),
  • Cały kod R, w tym import danych, przetwarzanie, analizy i generowanie danych wyjściowych,
  • Sweave lub inne podejście do łączenia ostatecznego wyniku z ostatecznym dokumentem,
  • Wszystko w formacie, który można łatwo pobrać i skompilować na komputerze czytelnika.

Idealnie byłoby na przykład artykuł z czasopisma lub praca, w której nacisk kładziony jest na rzeczywisty zastosowany temat, a nie na przykład nauczania statystycznego.

Powody zainteresowania: Szczególnie interesują mnie tematy stosowane w artykułach i tezach czasopism, ponieważ w takich sytuacjach powstaje kilka dodatkowych problemów:

  • Pojawiają się problemy związane z czyszczeniem i przetwarzaniem danych,
  • Pojawiają się problemy związane z zarządzaniem metadanymi,
  • Czasopisma i tezy często mają oczekiwania dotyczące stylu pod względem wyglądu i formatowania tabel i rycin,
  • Wiele czasopism i tez często zawiera szeroki zakres analiz, które poruszają kwestie dotyczące przepływu pracy (tj. Sposobu sekwencjonowania analiz) i czasu przetwarzania (np. Problemów z analizą buforowania itp.).

Obejrzenie kompletnych przykładów roboczych może zapewnić dobry materiał instruktażowy dla naukowców rozpoczynających od powtarzalnych badań.

Jeromy Anglim
źródło

Odpowiedzi:

14

Frank Harrell bije w bęben powtarzalne badania i raporty od wielu, wielu lat. Możesz zacząć od strony wiki, która zawiera wiele innych zasobów, w tym opublikowane badania, a także stronę Charlesa Geyera.

Dirk Eddelbuettel
źródło
11

Czasopismo Biostatistics ma redaktora naczelnego ds. Odtwarzalności, a wszystkie jego artykuły są oznaczone:

Powtarzalne badania

Nasza powtarzalna polityka badawcza dotyczy artykułów w czasopiśmie oznaczonych literą D, jeśli dane, na których są oparte, są swobodnie dostępne, C, jeśli kod autora jest swobodnie dostępny, i R, jeśli zarówno dane, jak i kod są dostępne, a nasz Associate Editor for Reproducibility jest w stanie wykorzystać je do odtworzenia wyników w pracy. Dane i kod są publikowane elektronicznie na stronie internetowej czasopisma jako materiały uzupełniające.

http://biostatistics.oxfordjournals.org/

Jak dobry to jest pomysł?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract jest dostarczany z pakietem R w dodatkach, który wykonuje analizę - jeszcze tego nie próbowałem. Nie mogę też dowiedzieć się, gdzie określono ocenę otwartości. Piszę do redaktora zastępczego z kilkoma pytaniami ...

[edytować]

Roger Peng, redaktor naczelny, powiedział mi, że prawdopodobnie nie ma możliwości znalezienia powtarzalnych dokumentów bez uzyskania pliku PDF. Wskazał mi ten, który ma ładną dużą literę „R” (co nie oznacza, że ​​filmy mają ocenę R) w celu zapewnienia powtarzalności:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Oczywiście sam dziennik nie jest darmowy ... #fail

Barry

Spacedman
źródło
1
wspaniale jest widzieć czasopismo, w którym priorytetem jest odtwarzalność. Czy widziałeś jakieś dobre przykłady artykułów oznaczonych R?
Jeromy Anglim
1
Nie traktują tego priorytetowo jako publikacji, myślę, że po prostu chcą to podkreślić. Zedytuję odpowiedź na przykładzie.
Spacedman
10

Nieodtwarzalność predyktorów chemioterapii NCI60

Jest to odtwarzalna analiza pokazująca brak odtwarzalności artykułu, który był w wiadomościach. Badanie kliniczne oparte na fałszywych wnioskach z nie powtarzalnego artykułu zostało zawieszone, wznowione, ponownie zawieszone ... To dobry przykład odtwarzalnej analizy w wiadomościach.

John D. Cook
źródło
10

Mam kilka takich przykładów na mojej stronie artykułów naukowych . (Nie wolno mi publikować więcej niż jednego hiperłącza jako nowego członka. Opiszę tylko artykuły na tej stronie).

(1) „Manifest tworzenia efektów w eksperymentach losowych” wykorzystuje system winiet R.

(2) „Przypisywanie efektów klastrze z losową kampanią wyborczą” było bardziej złożoną pracą, wymagającą czasochłonnych symulacji. Użyliśmy systemu opartego na Makefile i opublikowaliśmy go w Dataverse

(3) „EDA dla HLM” była moją najwcześniejszą próbą. Tutaj po prostu umieszczam dane i powiązane pliki Sweave w archiwum.

Jednym z problemów, który odkryliśmy podczas tworzenia naszego archiwum JASA, była zmiana wersji i domyślnych pakietów CRAN. Tak więc w tym archiwum uwzględniamy również wersje używanych pakietów. System oparty na winietach prawdopodobnie się zepsuje, gdy ludzie zmienią swoje paczki (nie jestem pewien, jak dołączyć dodatkowe paczki do paczki, którą jest Kompendium).

Wreszcie zastanawiam się, co robić, gdy zmienia się sam R. Czy istnieją sposoby na stworzenie, powiedzmy, maszyny wirtualnej, która odtwarza całe środowisko obliczeniowe używane dla papieru, tak aby maszyna wirtualna nie była ogromna?

W każdym razie mam nadzieję, że te przykłady pomogą. Przynajmniej pokazują niektóre z moich własnych eksperymentów w tej dziedzinie.

(Oto kilka hiperłączy zwykłego tekstu).

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376
Jake
źródło
Stawiasz kilka interesujących pytań. Zadałem
Anglim
9

Koenker i Zeileis zapewniają stronę internetową ze stosunkowo kompletnym przykładem. Oni dzielą się:

  • Rnw (Sweave code)
  • Kod analizy R.
  • Ostateczny plik PDF
  • Omówienie problemów związanych z kontrolą wersji
Jeromy Anglim
źródło
8

Napisaliśmy artykuł wyjaśniający, jak używać R / Bioconductor podczas analizy danych mikromacierzy. Artykuł został napisany w Sweave, a cały kod użyty do wygenerowania wykresów jest dołączony jako materiał uzupełniający.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Analiza danych mikromacierzy w czasie w drożdżach za pomocą BioConductor: studium przypadku z wykorzystaniem macierzy drożdży Affymetrix BMC Research Notes, 3:81.

csgillespie
źródło
7

Strona Charlesa Geyera na temat Sweave zawiera przykład pracy, która spełnia niektóre z twoich wymagań (surowe dane są po prostu z pakietu R, ale kod R / sweave i końcowy plik PDF są dostępne):

Artykuł na temat teorii w rozprawie Yun Ju Sunga, Monte Carlo Likelihood Inference for Missing Data Models (preprint) zawierał przykłady obliczeniowe. Każda liczba w gazecie i każda fabuła zostały pobrane (metodą wycinania i wklejania, muszę przyznać) z dokumentu „materiałów dodatkowych” wykonanego w Sweave.

(Plik źródłowy znajduje się w sekcji „Materiały dodatkowe do artykułu”).

Wiem, że natknąłem się na co najmniej jeden przykład R przeglądający stronę materiału ReproducibleResearch.net , ale niestety nie dodałem go do zakładek.

ars
źródło
5

Simon Jackman ma szczególnie użyteczny przykład analizy wyników ankiety: „Amerykanie i Australijczycy 10 lat po 11 września”. Ma wiele przykładów integracji tabel i rycin.

On dokonał dokument Sweave i PDF raport za tym blogu .

Chociaż surowe dane nie są dostarczane (o ile wiem), więc nie można uruchomić rzeczywistych przykładów Sweave, myślę, że można się sporo nauczyć ze studiowania kodu Sweave.

Jeromy Anglim
źródło
5

Neil Saunders przeanalizował interakcje online związane z konferencją. Kilka właściwości, które czynią go przydatnym przykładem Sweave, to:

  • Plik Rnw jest dostępny
  • Wykresy są generowane za pomocą ggplot
  • Dobra wielkość i łatwo zrozumiała domena

Materiały są dostępne tutaj:

Jeromy Anglim
źródło
4

Zobacz także Journal Of Statistics Software ; zachęcają do robienia papierów w Sweave.

użytkownik88
źródło
Nie, nie formalnie - zachęcanie do LaTeX jest zachęcające, ale jeśli spojrzysz na stronę z instrukcjami , nie zawiera ono słowa Sweave. Autorzy używają go i / lub wysyłają kod R wraz z papierem, ale dla mnie to odzwierciedla punkt widzenia Shane'a na temat winiet z paczki.
Dirk Eddelbuettel
Ok, nadal większość osób przesyłających go używa (również styl dziennika zawiera Swave.sty); główny problem polega na tym, że nie ma opublikowanych Rnws, a nadal dokumenty wykonane przez Sweave mają wyjście Stangle.
4

Znalazłem dobre w przeszłości i opublikuję je po ich wykopaniu, ale kilka szybkich ogólnych sugestii:

  1. Możesz znaleźć interesujące przykłady, wyszukując w Google słowa kluczowe i ext: rnw (które będą wyszukiwać pliki z rozszerzeniem sweave). Oto przykładowe wyszukiwanie . To trzeci wynik mojego wyszukiwania: http://www.ne.su.se/paper/araietal_source.Rnw . Oto kolejny przykład z mojego wyszukiwania: http://www.stat.umn.edu/geyer/gdor/ .
  2. Wiele paczek R ma ciekawe winiety, które w zasadzie stanowią to samo. Przykład: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
Shane
źródło
4

Robert Gentleman napisał artykuł zatytułowany „Reproducible Research: A Bioinformatics Case Study”

Implementuje krótki zestaw analiz jako pakiet R i używa Sweave. Omówiono także bardziej ogólnie użycie Sweave.

Zobacz sekcję „Powiązane pliki” na stronie artykułu, aby znaleźć plik archiwum wszystkich używanych plików i folderów.

Odniesienie:

  • Gentleman, Robert (2005) „Reproducible Research: A Bioinformatics Case Study”, Zastosowania statystyczne w genetyce i biologii molekularnej: t. 4: Iss. 1, art. 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Dostępne na: http://www.bepress.com/sagmb/vol4/iss1/art2
Jeromy Anglim
źródło
4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Niezły papier, autorstwa mojego kolegi z laboratorium. Nasza PI była bardzo zadowolona, ​​gdy przyszło do tego coś przypominającego pocztę od fanów. Teraz wszystkie publikacje grupy mają dodatkowe metody określone w LaTeX / Sweave. Niektóre dokumenty też (nie mogę zdecydować, czy zachować moje w LyX / Sweave, czy spasować i po prostu zrobić dodatki w Sweave).

Tim
źródło
3

Poszukiwanie przykładów i praktyk to dobry sposób na naukę, ale chciałem tylko wspomnieć, że odtwarzalność ma nie tylko techniczne / skryptowe strony ponownego uruchomienia, ale także styl kodu i aspekt strukturalny, minimalizacja efektów ubocznych w podstawowych funkcjach itp. Osobiście odkryłem, że Książka Chambers Oprogramowanie do analizy danych pozwala lepiej zrozumieć techniki, które pomagają uniknąć problemów z niezawodnością i odtwarzalnością na poziomie kodu R.

zzr
źródło
2

jeśli nadal potrzebujesz świetnego przykładu analizy w pełni REPRODUCIBLE oraz PAPIERU, skorzystaj z tego repozytorium .

@Jscamac wykonał świetną robotę, czyniąc swoją analizę powtarzalną, a ja osobiście ją zweryfikowałem.

Możesz polegać na tym, jak korzystać z funkcji R, takich jak pakiet, remakeaby zapewnić powtarzalność.

Uwaga: wykonanie obliczeń zajmuje około godziny.

Wszystko jest napisane w skrypcie i produkuje papier LaTeX na końcu z cyframi.

WojciechF
źródło