Obecnie muszę przeanalizować około 20 milionów rekordów i zbudować modele predykcyjne. Do tej pory wypróbowałem Statistica, SPSS, RapidMiner i R. Wśród nich Statistica wydaje się najbardziej odpowiedni do eksploracji danych, a interfejs użytkownika RapidMiner jest również bardzo przydatny, ale wydaje się, że Statistica, RapidMiner i SPSS są odpowiednie tylko dla mniejszych zestawów danych .
Czy ktoś mógłby polecić dobre narzędzie do dużych zestawów danych?
Dzięki Ci!
Odpowiedzi:
Drugi komentarz @ suncoolsu: wymiarowość twojego zestawu danych nie jest jedynym kryterium, które powinno zorientować cię w kierunku konkretnego oprogramowania. Na przykład, jeśli planujesz po prostu wykonywać bezobsługowe tworzenie klastrów lub używać PCA, istnieje kilka dedykowanych narzędzi, które radzą sobie z dużymi zestawami danych, jak zwykle spotyka się w badaniach genomowych.
Teraz, R (64 bity) obsługuje dużych danych całkiem dobrze, i nadal mieć możliwość używania pamięci dyskowej zamiast dostępu do pamięci RAM, ale zobaczyć CRAN Zadanie Zobacz wysoka wydajność i obliczeń równoległych z R . Standardowy GLM z łatwością pomieści 20 000 obs. (ale patrz także speedglm ) w rozsądnym czasie, jak pokazano poniżej:
Aby dać bardziej konkretną ilustrację, użyłem R do przetworzenia i analizy dużych danych genetycznych (800 osobników x 800 tys. SNP , gdzie głównym modelem statystycznym był warstwowy GLM z kilkoma współzmiennymi (2 min); było to możliwe dzięki wydajnemu R i Kody C dostępne w pakiecie snpMatrix (dla porównania, ten sam rodzaj modelu zajął około 8 minut przy użyciu dedykowanego oprogramowania C ++ ( plink ). Pracowałem również nad badaniem klinicznym (12 tys. Pacjentów x 50 zmiennych) i R odpowiada moim potrzebom Wreszcie, o ile mi wiadomo, pakiet lme4 jest jedynym oprogramowaniem, które pozwala dopasować model efektów mieszanych do niezrównoważonych i dużych zbiorów danych (jak ma to miejsce w przypadku oceny edukacyjnej na dużą skalę).
Stata / SE to kolejne oprogramowanie, które może obsługiwać duży zestaw danych . SAS i SPSS to oprogramowanie oparte na plikach, więc będą obsługiwać duże ilości danych. Porównawczy przegląd oprogramowania do analizy danych jest dostępny w Narzędziu Data Mining: Które jest najlepsze dla CRM . Do wizualizacji istnieje również wiele opcji; być może dobrym początkiem jest grafika dużych zbiorów danych: wizualizacja miliona ( sprawdzona w JSS przez P Murrella) i wszystkie powiązane wątki na tej stronie.
źródło
Większość algorytmów w Apache Mahout skaluje się daleko poza rekordy 20M, nawet w przypadku danych wielowymiarowych. Jeśli potrzebujesz tylko zbudować model predykcyjny, istnieją specjalne narzędzia, takie jak Vowpal Wabbit (http://hunch.net/~vw/), które można łatwo skalować do miliardów rekordów na jednym komputerze.
źródło
Istnieje pakiet RHIPE (integracja R-Hadoop). Może to bardzo ułatwić (z wyjątkami) analizę dużych ilości danych w R.
źródło
Trudno jest udzielić dobrej odpowiedzi, nie wiedząc, jakie modele masz na myśli.
Do regresji liniowej z powodzeniem użyłem pakietu biglm w R.
źródło
Ponieważ budujesz modele predykcyjne z dużych zestawów danych, możesz skorzystać z Google BigQuery (hostowanej wersji technologii z dokumentu badawczego Google na temat masowej analizy zestawu danych z Dremel). Można na przykład wyeksportować wyniki zapytania jako CSV w celu przetworzenia do predykcyjnego klasyfikatora.
BigQuery ma WebUI, który pozwala uruchamiać zapytania i eksportować wyniki. Wersja BigQuery w wersji beta (v1) zawierała klienta R, a wersja produkcyjna (v2) ostatecznie będzie miała również klienta R.
źródło
Przeszkoliliśmy obserwacje 3,5M i 44 funkcje przy użyciu 64-bitowej wersji R na instancji EC2 z 32 GB pamięci RAM i 4 rdzeniami. Korzystaliśmy z przypadkowych lasów i działało to dobrze. Pamiętaj, że musieliśmy wstępnie przetwarzać / manipulować danymi przed treningiem.
źródło
SAS Enterprise Miner wersja 6.2 nie miałby problemu z obsługą 20 milionów obserwacji i różnych modeli, które można dostosować do twojej sytuacji. Jednak problemem z SAS jest zazwyczaj koszt. Oto podsumowanie możliwości SAS EM: SAS EM 6.2: Nowości
źródło
Czy możesz spojrzeć na ScaVis ( http://jwork.org/scavis )? Nie patrzyłem na 20M, ale możesz spróbować to sprawdzić.
źródło
RHIPE to świetne rozwiązanie i prawdopodobnie wybrałbym to, jeśli mam ten problem! ale czy zastanawiałeś się nad NCSS? O ile mi wiadomo, najnowsza wersja 10 może budować te modele. Pełna wersja jest bardzo drogi, ale na kilku usługach pulpitu zdalnego można uruchomić aplikację tylko za niewielką opłatą, ale nie wiem .. raczej to sprawdź
źródło