Obraz maszyny wirtualnej dla projektów związanych z nauką danych

24

Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa.

Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub lekki system operacyjny z najnowszą wersją języka Python, R (w tym IDE) i innymi zainstalowanymi narzędziami do wizualizacji danych typu open source. Nie natknąłem się na jedno podczas mojego szybkiego wyszukiwania w Google.

Daj mi znać, jeśli takie istnieją lub jeśli ktoś z was stworzył je dla siebie? Zakładam, że niektóre uniwersytety mogą mieć własne obrazy maszyn wirtualnych. Udostępnij takie linki.

python r tools JeanVuda
źródło

Chociaż pytanie to może być postrzegane jako off-line z pogranicza, w jakiś sposób uważam je za dobre dla witryny IMHO.

Sean Owen

3

Oprócz niesamowitych komentarzy, istnieje (nieco starszy) post na blogu porównujący kilka różnych rozwiązań: jeroenjanssens.com/2013/12/07/...

LauriK

13

Istnieje inny wybór, który ostatnio popularny: doker ( https://www.docker.com ). Docker jest kontenerem i pozwala bardzo łatwo i szybko tworzyć / utrzymywać środowisko pracy.

zainstaluj niezbędne narzędzia do nauki danych w Pythonie
- https://registry.hub.docker.com/u/ceshine/python-datascience/
użyj języka r do analizy danych
- https://github.com/rocker-org/rocker

Mam nadzieję, że ci to pomoże.

fansia
źródło

12

Jeśli szukasz maszyny wirtualnej z fabrycznie zainstalowanym pakietem narzędzi, wypróbuj zestaw Data Science Toolbox .

Sean Owen
źródło

Ciekawy projekt (+1). Dziękuję za udostępnienie! Może być łatwiej go użyć niż dowiedzieć się, dlaczego Docker nie chciał pracować na moim laptopie z systemem Windows 7 (patrz wyżej). Jednak nadal może być dobrym pomysłem nauczyć się Dockera, biorąc pod uwagę najnowsze trendy.

Aleksandr Blekh

Niezła informacja. W porównaniu z narzędziami VM potrzeba trochę czasu, aby zrozumieć, jak działa doker. Jeśli znasz już vm, warto skorzystać z tego zestawu narzędzi. Dziękuję za udostępnienie.

fansia

Dziękuję za udostępnienie. To zdecydowanie interesujące. Ale nie rozumiem, jak ktoś może go używać bez interfejsu graficznego. Potrzebowałbym R-studio i PyCharm dla Pythona (tam jest notatnik iPython). Będę musiał trochę pograć, aby całkowicie to zrozumieć.

JeanVuda

1

@AleksandrBlekh W końcu udało mi się przekonać dokera do pracy na moim komputerze z systemem Windows 7, regenerując certyfikaty. docker-machine regenerate-certsMam nadzieję, że to pomaga :)

RK

@RK: Dziękujemy za poinformowanie mnie. Spróbuję, kiedy dostanę szansę (może to jednak chwilę potrwać, ponieważ są pewne sprawy o wyższym priorytecie, które należy załatwić).

Aleksandr Blekh,

8

Chociaż obrazy Docker są teraz bardziej modne, osobiście uważam, że technologia Docker nie jest przyjazna dla użytkownika, nawet dla zaawansowanych użytkowników. Jeśli nie masz nic przeciwko korzystaniu z nielokalnych obrazów maszyn wirtualnych i możesz korzystać z usług Amazon Web Services (AWS) EC2 , weź pod uwagę obrazy skoncentrowane na R dla projektów związanych z nauką danych, wstępnie zbudowanych przez Louisa Asletta. Obrazy zawierają najnowsze, jeśli nie najnowsze, wersje Ubuntu LTS , R i RStudio Server . Możesz uzyskać do nich dostęp tutaj .

Oprócz głównych składników, które wymieniłem powyżej, obrazy zawierają również wiele przydatnych narzędzi do analizy danych. Na przykład obrazy obsługują LaTeX, ODBC, OpenGL, Git, zoptymalizowane biblioteki numeryczne i inne.

Aleksandr Blekh
źródło

Dziękuję bardzo za wspomnienie o tej opcji. Na pewno spróbuję. Chcę jednak obrazu, który ma dokładnie taki AMI, ale można go uruchomić za pomocą VirtualBox na moim laptopie.

JeanVuda

Niedawno obejrzałem samouczek na temat Dockera, przetestowałem go i zrozumiałem. Która część nie była przyjazna dla użytkownika?

Robert Smith

@JeanVids: Nie ma za co. Rozumiem twoje pragnienie posiadania lokalnej maszyny wirtualnej - dlatego wypróbowałem Docker na moim komputerze. Dam ci znać, jeśli znajdę obraz maszyny wirtualnej VirtualBox skoncentrowany na analizie danych (mam nadzieję, że oparty na języku R).

Aleksandr Blekh

1

@RobertSmith: Rozumiem. Być może problem polegał na tym, że próbowałem skonfigurować go na komputerze z systemem Windows. W każdym razie spróbuję później. Dziękuję za komentarze.

Aleksandr Blekh

1

@AleksandrBlekh Tak, to może być główny problem. Niestety istnieje wiele problemów podczas instalowania tego rodzaju rzeczy w systemie Windows.

Robert Smith,

5

Czy próbowałeś Cloudera's QuickStart VM ?:

http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html

Bardzo łatwo go uruchomić i zawiera oprogramowanie typu open source, takie jak Mahout i Spark .

Emre Sevinç
źródło

5

Dzisiaj użyłem tego repozytorium z https://github.com/sequenceiq/docker-spark i zbudowałem go z dokerem. jest to iskra budująca obraz dokera na podstawie obrazu tego samego właściciela w postaci hadoopa. jeśli chcesz użyć Spark, ma API Pythona o nazwie pyspark http://spark.apache.org/docs/latest/api/python/

Evren Kutar
źródło

Obraz maszyny wirtualnej dla projektów związanych z nauką danych

Odpowiedzi: