Pytania oznaczone «pyspark»

Interfejs API Spark Python (PySpark) udostępnia model programowania Apache-Spark w języku Python.

178
Wydajność Spark dla Scala vs Python

Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do...

144
Jak wyłączyć logowanie INFO w Spark?

Zainstalowałem Sparka za pomocą przewodnika AWS EC2 i mogę poprawnie uruchomić program za pomocą bin/pysparkskryptu, aby dostać się do podpowiedzi iskry, a także mogę pomyślnie wykonać przewodnik Szybki start. Jednak do końca życia nie mogę wymyślić, jak zatrzymać wszystkie szczegółowe...

111
importowanie pyspark w powłoce Pythona

To jest kopia czyjegoś pytania na innym forum, na które nigdy nie udzielono odpowiedzi, więc pomyślałem, że zadam je tutaj ponownie, ponieważ mam ten sam problem. (Zobacz http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Mam poprawnie zainstalowanego Spark'a na moim komputerze i jestem...

110
Załaduj plik CSV za pomocą Sparka

Jestem nowy w Spark i próbuję odczytać dane CSV z pliku za pomocą Spark. Oto co robię: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Spodziewałbym się, że to wywołanie da mi listę dwóch pierwszych kolumn mojego pliku, ale otrzymuję ten...

101
Spark Kill Running Application

Mam uruchomioną aplikację Spark, w której zajmuje ona wszystkie rdzenie, na których moje inne aplikacje nie otrzymają żadnego zasobu. Zrobiłem kilka szybkich badań i ludzie zasugerowali użycie YARN kill lub / bin / spark-class do zabicia polecenia. Jednak używam wersji CDH i / bin / spark-class w...

88
Jak ustawić wersję sterownika w języku Python w Spark?

Używam Spark 1.4.0-rc2, więc mogę używać Pythona 3 z Spark. Jeśli dodam export PYSPARK_PYTHON=python3do mojego pliku .bashrc, mogę uruchomić Spark interaktywnie z Pythonem 3. Jednak jeśli chcę uruchomić samodzielny program w trybie lokalnym, pojawia się błąd: Exception: Python in worker has...

85
pokaż różne wartości kolumn w pyspark dataframe: python

Proszę zasugerować alternatywną ramkę danych pyspark dla Pand df['col'].unique(). Chcę wymienić wszystkie unikalne wartości w kolumnie dataframe pyspark. Nie sposób typu SQL (szablon rejestru, a następnie zapytanie SQL dla różnych wartości). Również nie potrzebuję groupby->countDistinct,...

81
Jak połączyć PyCharm z PySpark?

Jestem nowy z Apache Spark i najwyraźniej zainstalowałem Apache-Spark z Homebrew w moim Macbooku: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on...