Pytanie: Czy są jakieś dobre przykłady powtarzalnych badań z wykorzystaniem R, które są bezpłatnie dostępne online?
Idealny przykład: W szczególności idealne przykłady zapewniłyby:
- Surowe dane (i najlepiej metadane wyjaśniające dane),
- Cały kod R, w tym import danych, przetwarzanie, analizy i generowanie danych wyjściowych,
- Sweave lub inne podejście do łączenia ostatecznego wyniku z ostatecznym dokumentem,
- Wszystko w formacie, który można łatwo pobrać i skompilować na komputerze czytelnika.
Idealnie byłoby na przykład artykuł z czasopisma lub praca, w której nacisk kładziony jest na rzeczywisty zastosowany temat, a nie na przykład nauczania statystycznego.
Powody zainteresowania: Szczególnie interesują mnie tematy stosowane w artykułach i tezach czasopism, ponieważ w takich sytuacjach powstaje kilka dodatkowych problemów:
- Pojawiają się problemy związane z czyszczeniem i przetwarzaniem danych,
- Pojawiają się problemy związane z zarządzaniem metadanymi,
- Czasopisma i tezy często mają oczekiwania dotyczące stylu pod względem wyglądu i formatowania tabel i rycin,
- Wiele czasopism i tez często zawiera szeroki zakres analiz, które poruszają kwestie dotyczące przepływu pracy (tj. Sposobu sekwencjonowania analiz) i czasu przetwarzania (np. Problemów z analizą buforowania itp.).
Obejrzenie kompletnych przykładów roboczych może zapewnić dobry materiał instruktażowy dla naukowców rozpoczynających od powtarzalnych badań.
źródło
Nieodtwarzalność predyktorów chemioterapii NCI60
Jest to odtwarzalna analiza pokazująca brak odtwarzalności artykułu, który był w wiadomościach. Badanie kliniczne oparte na fałszywych wnioskach z nie powtarzalnego artykułu zostało zawieszone, wznowione, ponownie zawieszone ... To dobry przykład odtwarzalnej analizy w wiadomościach.
źródło
Mam kilka takich przykładów na mojej stronie artykułów naukowych . (Nie wolno mi publikować więcej niż jednego hiperłącza jako nowego członka. Opiszę tylko artykuły na tej stronie).
(1) „Manifest tworzenia efektów w eksperymentach losowych” wykorzystuje system winiet R.
(2) „Przypisywanie efektów klastrze z losową kampanią wyborczą” było bardziej złożoną pracą, wymagającą czasochłonnych symulacji. Użyliśmy systemu opartego na Makefile i opublikowaliśmy go w Dataverse
(3) „EDA dla HLM” była moją najwcześniejszą próbą. Tutaj po prostu umieszczam dane i powiązane pliki Sweave w archiwum.
Jednym z problemów, który odkryliśmy podczas tworzenia naszego archiwum JASA, była zmiana wersji i domyślnych pakietów CRAN. Tak więc w tym archiwum uwzględniamy również wersje używanych pakietów. System oparty na winietach prawdopodobnie się zepsuje, gdy ludzie zmienią swoje paczki (nie jestem pewien, jak dołączyć dodatkowe paczki do paczki, którą jest Kompendium).
Wreszcie zastanawiam się, co robić, gdy zmienia się sam R. Czy istnieją sposoby na stworzenie, powiedzmy, maszyny wirtualnej, która odtwarza całe środowisko obliczeniowe używane dla papieru, tak aby maszyna wirtualna nie była ogromna?
W każdym razie mam nadzieję, że te przykłady pomogą. Przynajmniej pokazują niektóre z moich własnych eksperymentów w tej dziedzinie.
(Oto kilka hiperłączy zwykłego tekstu).
źródło
Koenker i Zeileis zapewniają stronę internetową ze stosunkowo kompletnym przykładem. Oni dzielą się:
źródło
Napisaliśmy artykuł wyjaśniający, jak używać R / Bioconductor podczas analizy danych mikromacierzy. Artykuł został napisany w Sweave, a cały kod użyty do wygenerowania wykresów jest dołączony jako materiał uzupełniający.
Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Analiza danych mikromacierzy w czasie w drożdżach za pomocą BioConductor: studium przypadku z wykorzystaniem macierzy drożdży Affymetrix BMC Research Notes, 3:81.
źródło
Strona Charlesa Geyera na temat Sweave zawiera przykład pracy, która spełnia niektóre z twoich wymagań (surowe dane są po prostu z pakietu R, ale kod R / sweave i końcowy plik PDF są dostępne):
(Plik źródłowy znajduje się w sekcji „Materiały dodatkowe do artykułu”).
Wiem, że natknąłem się na co najmniej jeden przykład R przeglądający stronę materiału ReproducibleResearch.net , ale niestety nie dodałem go do zakładek.
źródło
Simon Jackman ma szczególnie użyteczny przykład analizy wyników ankiety: „Amerykanie i Australijczycy 10 lat po 11 września”. Ma wiele przykładów integracji tabel i rycin.
On dokonał dokument Sweave i PDF raport za tym blogu .
Chociaż surowe dane nie są dostarczane (o ile wiem), więc nie można uruchomić rzeczywistych przykładów Sweave, myślę, że można się sporo nauczyć ze studiowania kodu Sweave.
źródło
Neil Saunders przeanalizował interakcje online związane z konferencją. Kilka właściwości, które czynią go przydatnym przykładem Sweave, to:
ggplot
Materiały są dostępne tutaj:
źródło
Zobacz także Journal Of Statistics Software ; zachęcają do robienia papierów w Sweave.
źródło
Znalazłem dobre w przeszłości i opublikuję je po ich wykopaniu, ale kilka szybkich ogólnych sugestii:
źródło
Robert Gentleman napisał artykuł zatytułowany „Reproducible Research: A Bioinformatics Case Study”
Implementuje krótki zestaw analiz jako pakiet R i używa Sweave. Omówiono także bardziej ogólnie użycie Sweave.
Zobacz sekcję „Powiązane pliki” na stronie artykułu, aby znaleźć plik archiwum wszystkich używanych plików i folderów.
Odniesienie:
źródło
http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1
Niezły papier, autorstwa mojego kolegi z laboratorium. Nasza PI była bardzo zadowolona, gdy przyszło do tego coś przypominającego pocztę od fanów. Teraz wszystkie publikacje grupy mają dodatkowe metody określone w LaTeX / Sweave. Niektóre dokumenty też (nie mogę zdecydować, czy zachować moje w LyX / Sweave, czy spasować i po prostu zrobić dodatki w Sweave).
źródło
Poszukiwanie przykładów i praktyk to dobry sposób na naukę, ale chciałem tylko wspomnieć, że odtwarzalność ma nie tylko techniczne / skryptowe strony ponownego uruchomienia, ale także styl kodu i aspekt strukturalny, minimalizacja efektów ubocznych w podstawowych funkcjach itp. Osobiście odkryłem, że Książka Chambers Oprogramowanie do analizy danych pozwala lepiej zrozumieć techniki, które pomagają uniknąć problemów z niezawodnością i odtwarzalnością na poziomie kodu R.
źródło
jeśli nadal potrzebujesz świetnego przykładu analizy w pełni REPRODUCIBLE oraz PAPIERU, skorzystaj z tego repozytorium .
@Jscamac wykonał świetną robotę, czyniąc swoją analizę powtarzalną, a ja osobiście ją zweryfikowałem.
Możesz polegać na tym, jak korzystać z funkcji R, takich jak pakiet,
remake
aby zapewnić powtarzalność.Uwaga: wykonanie obliczeń zajmuje około godziny.
Wszystko jest napisane w skrypcie i produkuje papier LaTeX na końcu z cyframi.
źródło