Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa.
Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub lekki system operacyjny z najnowszą wersją języka Python, R (w tym IDE) i innymi zainstalowanymi narzędziami do wizualizacji danych typu open source. Nie natknąłem się na jedno podczas mojego szybkiego wyszukiwania w Google.
Daj mi znać, jeśli takie istnieją lub jeśli ktoś z was stworzył je dla siebie? Zakładam, że niektóre uniwersytety mogą mieć własne obrazy maszyn wirtualnych. Udostępnij takie linki.
Odpowiedzi:
Istnieje inny wybór, który ostatnio popularny: doker ( https://www.docker.com ). Docker jest kontenerem i pozwala bardzo łatwo i szybko tworzyć / utrzymywać środowisko pracy.
Mam nadzieję, że ci to pomoże.
źródło
Jeśli szukasz maszyny wirtualnej z fabrycznie zainstalowanym pakietem narzędzi, wypróbuj zestaw Data Science Toolbox .
źródło
docker-machine regenerate-certs
Mam nadzieję, że to pomaga :)Chociaż obrazy Docker są teraz bardziej modne, osobiście uważam, że technologia Docker nie jest przyjazna dla użytkownika, nawet dla zaawansowanych użytkowników. Jeśli nie masz nic przeciwko korzystaniu z nielokalnych obrazów maszyn wirtualnych i możesz korzystać z usług Amazon Web Services (AWS) EC2 , weź pod uwagę obrazy skoncentrowane na R dla projektów związanych z nauką danych, wstępnie zbudowanych przez Louisa Asletta. Obrazy zawierają najnowsze, jeśli nie najnowsze, wersje Ubuntu LTS , R i RStudio Server . Możesz uzyskać do nich dostęp tutaj .
Oprócz głównych składników, które wymieniłem powyżej, obrazy zawierają również wiele przydatnych narzędzi do analizy danych. Na przykład obrazy obsługują LaTeX, ODBC, OpenGL, Git, zoptymalizowane biblioteki numeryczne i inne.
źródło
Czy próbowałeś Cloudera's QuickStart VM ?:
Bardzo łatwo go uruchomić i zawiera oprogramowanie typu open source, takie jak Mahout i Spark .
źródło
Dzisiaj użyłem tego repozytorium z https://github.com/sequenceiq/docker-spark i zbudowałem go z dokerem. jest to iskra budująca obraz dokera na podstawie obrazu tego samego właściciela w postaci hadoopa. jeśli chcesz użyć Spark, ma API Pythona o nazwie pyspark http://spark.apache.org/docs/latest/api/python/
źródło