Obsługa dużych zestawów danych w R - samouczkach, najlepszych praktykach itp

11

Jestem R noobem, który jest zobowiązany do przeprowadzania różnego rodzaju analiz na dużych zestawach danych w R. Tak więc, rozglądając się po tej stronie i gdzie indziej, wydawało mi się, że wiąże się z nią wiele ezoterycznych i mniej znanych problemów - takich jak z którego pakietu skorzystać, jakie przekształcenia (nie) dotyczą danych itp.

Zastanawiam się tylko, czy istnieje książka / tutorial / przewodnik, który demistyfikuje to wszystko i przedstawia informacje w sposób systematyczny? Wolę to robić zamiast rozglądać się i zbierać informacje z różnych źródeł online.

Z góry dziękuję.

TeachMeR
źródło
2
Może to być początek: cran.r-project.org/web/views/HighPerformanceComputing.html
Roman Luštrik
1
Pomocne może być podzielenie się przykładami analizy, jaką chcesz wykonać i jak wyglądają twoje dane. Proste statystyki, takie jak średnie czy złożone regresje? 200 zmiennych w tysiącu wierszy, czy 4 zmienne i 20 milionów wierszy?
PaulHurleyuk
1
Jeśli masz naprawdę „duże” zbiory danych, być może powinieneś rzucić okiem na relacyjne bazy danych. Punktem wyjścia do tego może być podręcznik „R Import / eksport danych”, który jest dostarczany z RNB. Podręcznik jest również dostępny w sekcji „Podręczniki” na stronie internetowej R.
1
Po pierwsze, ważne pytanie: Co masz na myśli przez duże, a co chcesz zrobić?
Fomite,

Odpowiedzi: