Często słyszymy o zarządzaniu projektami i wzorcach projektowych w informatyce, ale rzadziej w analizie statystycznej. Wydaje się jednak, że decydującym krokiem w kierunku opracowania skutecznego i trwałego projektu statystycznego jest utrzymanie porządku.
Często opowiadam się za użyciem R i spójnej organizacji plików w oddzielnych folderach (plik danych surowych, plik danych przekształconych, skrypty R, rysunki, notatki itp.). Głównym powodem takiego podejścia jest to, że późniejsze uruchomienie analizy może być łatwiejsze (na przykład, gdy zapomniałeś, jak udało ci się stworzyć dany wykres).
Jakie są najlepsze praktyki w statystycznym zarządzaniu projektami lub jakie zalecenia chciałbyś przekazać na podstawie własnego doświadczenia? Oczywiście dotyczy to każdego oprogramowania statystycznego. ( poproszę jedną odpowiedź na post )
Odpowiedzi:
Przygotowuję szybką serię wskazówek, które znalazłem na temat SO (jak sugeruje @Shane), Biostar (dalej, BS) i tej SE. Starałem się jak najlepiej potwierdzić własność każdego elementu i wybrać pierwszą lub bardzo pozytywną odpowiedź. Dodałem również własne elementy i oflagowałem przedmioty specyficzne dla środowiska [R].
Zarządzanie danymi
Kodowanie
Analiza
Wersjonowanie
Edycja / raportowanie
Na marginesie, Hadley Wickham oferuje kompleksowy przegląd zarządzania projektami R , w tym odtwarzalną egzemplifikację i jednolitą filozofię danych .
Wreszcie, w swoim zorientowanym na R przepływie pracy analizy danych statystycznych Oliver Kirchkamp oferuje bardzo szczegółowy przegląd tego, dlaczego przyjęcie i przestrzeganie określonego przepływu pracy pomoże statystykom współpracować ze sobą, zapewniając jednocześnie integralność danych i odtwarzalność wyników. Ponadto zawiera omówienie korzystania z systemu tkania i kontroli wersji. Użytkownicy Staty mogą uznać za przydatny przepływ pracy analizy danych J. Scotta Longa .
źródło
To nie daje konkretnej odpowiedzi, ale możesz spojrzeć na te powiązane pytania dotyczące przepełnienia stosu:
Być może zainteresuje Cię również najnowszy projekt Johna Mylesa White'a dotyczący stworzenia szablonu projektu statystycznego.
źródło
To pokrywa się z odpowiedzią Shane'a, ale moim zdaniem istnieją dwa główne pomosty:
źródło
Van Belle jest źródłem zasad udanych projektów statystycznych.
źródło
Tylko moje 2 centy. Uważam, że Notepad ++ jest do tego przydatny. Mogę utrzymywać osobne skrypty (kontrola programu, formatowanie danych itp.) I plik .pad dla każdego projektu. Wywołanie pliku .pad to wszystkie skrypty powiązane z tym projektem.
źródło
Podczas gdy inne odpowiedzi są świetne, dodałbym jeszcze jeden sentyment: Unikaj używania SPSS. Użyłem SPSS do pracy magisterskiej, a teraz regularnie pracuję w badaniach rynku.
Podczas pracy z SPSS niezwykle trudno było opracować zorganizowany kod statystyczny, ponieważ SPSS źle radzi sobie z wieloma plikami (oczywiście możesz obsługiwać wiele plików, ale nie jest tak bezbolesny jak R), ponieważ nie możesz przechowywać zestawów danych do zmiennej - musisz użyć kodu „zestaw danych aktywuj x” - kod, który może być całkowitym bólem. Ponadto składnia jest nieporęczna i zachęca do tworzenia skrótów, co czyni kod jeszcze bardziej nieczytelnym.
źródło
Notatniki Jupyter, które współpracują z R / Python / Matlab / etc, usuwają problem z zapamiętywaniem, który skrypt generuje określoną liczbę. Ten post opisuje schludny sposób trzymania kodu i cyfry tuż obok siebie. Przechowywanie wszystkich cyfr dla rozdziału papierowego lub pracy dyplomowej w jednym zeszycie sprawia, że kod asccoated jest bardzo łatwy do znalezienia.
A nawet lepiej, ponieważ możesz przewijać, powiedzmy, tuzin postaci, aby znaleźć tę, którą chcesz. Kod jest ukryty, dopóki nie będzie potrzebny.
źródło