Pytania oznaczone «rdd»

254
Spark - repartition () vs coalesce ()

Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję,...

178
Wydajność Spark dla Scala vs Python

Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do...

140
Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD map a mapPartitionsmetodą? I flatMapzachowuje się jak maplub jak mapPartitions? Dzięki. (edytuj) tj. jaka jest różnica (semantycznie lub pod względem wykonania) między def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] =...

82
Jak działa HashPartitioner?

Przeczytałem w dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Zakładam, że HashPartitionerdzieli rozproszony zestaw na podstawie skrótu kluczy. Na przykład, jeśli moje dane są podobne (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Więc partycjoner umieściłby...