Pytania oznaczone «apache-spark»

Apache Spark to silnik rozproszonego przetwarzania danych typu open source napisany w Scali, zapewniający ujednolicony interfejs API i rozproszone zestawy danych dla użytkowników. Przypadki użycia dla Apache Spark często są związane z uczeniem maszynowym / głębokim uczeniem, przetwarzaniem wykresów.

254
Spark - repartition () vs coalesce ()

Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję,...

179
Jak odczytać wiele plików tekstowych w jednym RDD?

Chcę odczytać kilka plików tekstowych z lokalizacji hdfs i wykonać mapowanie w iteracji za pomocą Spark. JavaRDD<String> records = ctx.textFile(args[1], 1); jest w stanie odczytać tylko jeden plik na raz. Chcę odczytać więcej niż jeden plik i przetworzyć je jako pojedynczy RDD. W jaki...

178
Wydajność Spark dla Scala vs Python

Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do...

144
Jak wyłączyć logowanie INFO w Spark?

Zainstalowałem Sparka za pomocą przewodnika AWS EC2 i mogę poprawnie uruchomić program za pomocą bin/pysparkskryptu, aby dostać się do podpowiedzi iskry, a także mogę pomyślnie wykonać przewodnik Szybki start. Jednak do końca życia nie mogę wymyślić, jak zatrzymać wszystkie szczegółowe...