Odkryłem, że najłatwiejszym rozwiązaniem w systemie Windows jest kompilacja ze źródeł.
Możesz prawie postępować zgodnie z tym przewodnikiem: http://spark.apache.org/docs/latest/building-spark.html
Pobierz i zainstaluj Maven i ustaw MAVEN_OPTS
na wartość określoną w przewodniku.
Ale jeśli po prostu bawisz się Sparkiem i nie potrzebujesz go do działania w systemie Windows z jakiegokolwiek innego powodu, że na Twojej maszynie jest uruchomiony system Windows, zdecydowanie sugeruję zainstalowanie Spark'a na maszynie wirtualnej z systemem Linux. Najprostszym sposobem na rozpoczęcie jest prawdopodobnie pobranie gotowych obrazów wykonanych przez Cloudera lub Hortonworks i skorzystanie z dołączonej wersji Spark lub zainstalowanie własnego ze źródła lub skompilowanych plików binarnych, które można pobrać ze strony internetowej Spark.
Kroki, aby zainstalować Sparka w trybie lokalnym:
Zainstaluj Javę 7 lub nowszą . Aby sprawdzić, czy instalacja Java została zakończona, otwórz typ wiersza poleceń
java
i naciśnij Enter. Jeśli otrzymasz komunikat,'Java' is not recognized as an internal or external command.
musisz skonfigurować zmienne środowiskoweJAVA_HOME
iPATH
wskazać ścieżkę do jdk.Pobierz i zainstaluj Scala .
Ustaw
SCALA_HOME
wControl Panel\System and Security\System
goto "Adv System settings" i dodaj%SCALA_HOME%\bin
zmienną PATH do zmiennych środowiskowych.Zainstaluj Python 2.6 lub nowszy z linku Python Download .
Pobierz SBT . Zainstaluj go i ustaw
SBT_HOME
jako zmienną środowiskową o wartości<<SBT PATH>>
.Pobierz
winutils.exe
z repozytorium HortonWorks lub repozytorium git . Ponieważ nie mamy lokalnej instalacji Hadoop w systemie Windows, musimy pobraćwinutils.exe
i umieścić ją wbin
katalogu w utworzonymHadoop
katalogu domowym. UstawHADOOP_HOME = <<Hadoop home directory>>
w zmiennej środowiskowej.Będziemy używać gotowego pakietu Spark, więc wybierz wstępnie zbudowany pakiet Spark do pobrania Hadoop Spark . Pobierz i rozpakuj.
Ustaw
SPARK_HOME
i dodaj%SPARK_HOME%\bin
zmienną PATH w zmiennych środowiskowych.Uruchom polecenie:
spark-shell
Otwórz
http://localhost:4040/
w przeglądarce, aby wyświetlić interfejs sieciowy SparkContext.źródło
Możesz pobrać Spark stąd:
http://spark.apache.org/downloads.html
Polecam tę wersję: Hadoop 2 (HDP2, CDH5)
Od wersji 1.0.0 istnieją skrypty .cmd do uruchamiania programu Spark w systemie Windows.
Rozpakuj go za pomocą 7zip lub podobnego.
Aby rozpocząć, możesz wykonać /bin/spark-shell.cmd --master local [2]
Aby skonfigurować swoją instancję, możesz kliknąć ten link: http://spark.apache.org/docs/latest/
źródło
Możesz użyć następujących sposobów konfiguracji Spark:
Chociaż istnieją różne sposoby tworzenia Sparka ze Źródła .
Najpierw próbowałem zbudować źródło Sparka za pomocą SBT, ale to wymaga hadoopa. Aby uniknąć tych problemów, użyłem gotowej wersji.
Zamiast Source, pobrałem wersję prebuilt dla wersji Hadoop 2.xi uruchomiłem ją. W tym celu musisz zainstalować Scala jako wymaganie wstępne.
Tutaj zebrałem wszystkie kroki:
Jak uruchomić Apache Spark na Windows7 w trybie samodzielnym
Mam nadzieję, że to ci pomoże .. !!!
źródło
Próbowałem pracować z Spark-2.xx, tworzenie kodu źródłowego Spark nie działało.
Tak więc, chociaż nie zamierzam używać Hadoop, pobrałem wstępnie zbudowany Spark z osadzonym hadoopem:
spark-2.0.0-bin-hadoop2.7.tar.gz
Wskaż SPARK_HOME na wyodrębnionym katalogu, a następnie dodaj do
PATH
:;%SPARK_HOME%\bin;
Pobierz wykonywalne pliki winutils z repozytorium Hortonworks lub z platformy Amazon AWS winutils .
Utwórz katalog, w którym umieścisz plik wykonywalny winutils.exe. Na przykład C: \ SparkDev \ x64. Dodaj zmienną środowiskową
%HADOOP_HOME%
wskazującą na ten katalog, a następnie dodaj%HADOOP_HOME%\bin
do PATH.Korzystając z wiersza poleceń, utwórz katalog:
Korzystając z pobranego pliku wykonywalnego, dodaj pełne uprawnienia do utworzonego katalogu plików, ale korzystając z formalizmu unixowskiego:
Wpisz następującą linię poleceń:
Wejście wiersza poleceń Scala powinno być wyświetlane automatycznie.
Uwaga: Nie musisz oddzielnie konfigurować Scali. Jest też wbudowany.
źródło
Oto poprawki umożliwiające uruchomienie go w systemie Windows bez przebudowywania wszystkiego - na przykład w przypadku braku najnowszej wersji MS-VS. (Będziesz potrzebował kompilatora Win32 C ++, ale możesz bezpłatnie zainstalować MS VS Community Edition).
Wypróbowałem to ze Spark 1.2.2 i mahout 0.10.2, a także z najnowszymi wersjami w listopadzie 2015 r. Istnieje wiele problemów, w tym fakt, że kod Scala próbuje uruchomić skrypt bash (mahout / bin / mahout), który oczywiście nie działa, skrypty sbin nie zostały przeportowane do systemu Windows, a winutils brakuje, jeśli hadoop nie jest zainstalowany.
(1) Zainstaluj scala, a następnie rozpakuj spark / hadoop / mahout do katalogu głównego C: pod odpowiednimi nazwami produktów.
(2) Zmień nazwę \ mahout \ bin \ mahout na mahout.sh.was (nie będziemy tego potrzebować)
(3) Skompiluj następujący program Win32 C ++ i skopiuj plik wykonywalny do pliku o nazwie C: \ mahout \ bin \ mahout (to prawda - bez przyrostka .exe, jak plik wykonywalny Linuksa)
(4) Utwórz skrypt \ mahout \ bin \ mahout.bat i wklej poniższą zawartość, chociaż dokładne nazwy słoików w ścieżkach klas _CP będą zależały od wersji spark i mahout. Zaktualizuj dowolne ścieżki zgodnie z instalacją. Używaj nazw ścieżek 8.3 bez spacji. Zauważ, że nie możesz używać symboli wieloznacznych / gwiazdek w ścieżkach klas tutaj.
Nie należy zmieniać nazwy zmiennej MAHOUT_CP, ponieważ odwołuje się do niej kod C ++.
Oczywiście możesz skomentować kod, który uruchamia mistrza i proces roboczy Spark, ponieważ Mahout będzie uruchamiał Spark w razie potrzeby; Po prostu umieściłem to w zadaniu wsadowym, aby pokazać, jak go uruchomić, jeśli chcesz używać Sparka bez Mahouta.
(5) Poniższy samouczek jest dobrym miejscem do rozpoczęcia:
Możesz wywołać instancję Mahout Spark pod adresem:
źródło
Przewodnik autorstwa Ani Menon (dzięki!) Prawie działał dla mnie na Windows 10, po prostu musiałem pobrać nowszy winutils.exe z tego gita (obecnie hadoop-2.8.1): https://github.com/steveloughran/winutils
źródło
Oto siedem kroków, aby zainstalować Spark w systemie Windows 10 i uruchomić go z Pythona:
Krok 1: pobierz plik tar (archiwum taśm) programu Spark 2.2.0 do dowolnego folderu F z tego łącza - https://spark.apache.org/downloads.html . Rozpakuj go i skopiuj rozpakowany folder do żądanego folderu A. Zmień nazwę folderu spark-2.2.0-bin-hadoop2.7 na spark.
Niech ścieżka do folderu iskier to C: \ Users \ Desktop \ A \ spark
Krok 2: pobierz plik tar gz hardoop 2.7.3 do tego samego folderu F z tego linku - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Rozpakuj go i skopiuj rozpakowany folder do tego samego folderu A. Zmień nazwę folderu z Hadoop-2.7.3.tar na hadoop. Niech ścieżka do folderu hadoop będzie C: \ Users \ Desktop \ A \ hadoop
Krok 3: Utwórz nowy plik tekstowy notatnika. Zapisz ten pusty plik notatnika jako winutils.exe (z Zapisz jako typ: wszystkie pliki). Skopiuj ten plik O KB winutils.exe do folderu bin w Spark - C: \ Users \ Desktop \ A \ spark \ bin
Krok 4: Teraz musimy dodać te foldery do środowiska systemowego.
4a: Utwórz zmienną systemową (nie zmienną użytkownika, ponieważ zmienna użytkownika odziedziczy wszystkie właściwości zmiennej systemowej) Nazwa zmiennej: SPARK_HOME Wartość zmiennej: C: \ Users \ Desktop \ A \ spark
Znajdź zmienną systemową Path i kliknij edytuj. Zobaczysz wiele ścieżek. Nie usuwaj żadnej ścieżki. Dodaj wartość tej zmiennej -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Utwórz zmienną systemową
Nazwa zmiennej: HADOOP_HOME Wartość zmiennej: C: \ Users \ Desktop \ A \ hadoop
Znajdź zmienną systemową Path i kliknij edytuj. Dodaj wartość tej zmiennej -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Utwórz zmienną systemową Nazwa zmiennej: JAVA_HOME Wyszukaj Java w systemie Windows. Kliknij prawym przyciskiem myszy i kliknij otwórz lokalizację pliku. Będziesz musiał ponownie kliknąć prawym przyciskiem myszy dowolny plik java i kliknąć otwartą lokalizację pliku. Będziesz używać ścieżki do tego folderu. LUB możesz wyszukać C: \ Program Files \ Java. Moja wersja Java zainstalowana w systemie to jre1.8.0_131. Wartość zmiennej: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Znajdź zmienną systemową Path i kliknij edytuj. Dodaj wartość tej zmiennej -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Krok 5: Otwórz wiersz polecenia i przejdź do folderu spark bin (wpisz cd C: \ Users \ Desktop \ A \ spark \ bin). Wpisz łuskę iskrową.
Może to zająć trochę czasu i spowodować ostrzeżenie. Na koniec pokaże powitanie w wersji Spark 2.2.0
Krok 6: Wpisz exit () lub uruchom ponownie wiersz polecenia i ponownie przejdź do folderu spark bin. Wpisz pyspark:
Pokaże ostrzeżenia i błędy, ale zignoruje. To działa.
Krok 7: Pobieranie zostało zakończone. Jeśli chcesz bezpośrednio uruchomić Spark z powłoki Pythona: przejdź do Skrypty w folderze Pythona i wpisz
w wierszu polecenia.
W powłoce Pythona
zaimportuj niezbędne moduły
Jeśli chcesz pominąć kroki importowania findspark i inicjalizacji go, postępuj zgodnie z procedurą podaną podczas importowania pyspark w powłoce Pythona
źródło
Oto prosty minimalny skrypt do uruchomienia z dowolnej konsoli Pythona. Zakłada się, że rozpakowałeś biblioteki Spark, które pobrałeś do C: \ Apache \ spark-1.6.1.
Działa to w systemie Windows bez tworzenia czegokolwiek i rozwiązuje problemy, w których Spark narzekałby na rekurencyjne wytrawianie.
źródło
Cloudera i Hortonworks to najlepsze narzędzia do uruchamiania z HDFS w Microsoft Windows. Możesz również użyć VMWare lub VBox, aby zainicjować maszynę wirtualną w celu ustanowienia kompilacji do twojego HDFS i Spark, Hive, HBase, Pig, Hadoop z Scala, R, Java, Python.
źródło