Zastanawiam się tylko, jaka jest różnica między RDDi DataFrame (Spark 2.0.0 DataFrame to zwykły alias typu Dataset[Row]) w Apache Spark? Czy potrafisz konwertować jeden na
Zastanawiam się tylko, jaka jest różnica między RDDi DataFrame (Spark 2.0.0 DataFrame to zwykły alias typu Dataset[Row]) w Apache Spark? Czy potrafisz konwertować jeden na
Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję,...
Pod względem RDDtrwałości, jakie są różnice pomiędzy cache()i persist()w
Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do...
Kiedy elastyczny rozproszony zestaw danych (RDD) jest tworzony z pliku tekstowego lub kolekcji (lub z innego RDD), czy musimy jawnie wywoływać „pamięć podręczną” lub „utrwalanie”, aby przechowywać dane RDD w pamięci? A może dane RDD są domyślnie przechowywane w pamięci w sposób rozproszony? val...
Jaka jest różnica między RDD map a mapPartitionsmetodą? I flatMapzachowuje się jak maplub jak mapPartitions? Dzięki. (edytuj) tj. jaka jest różnica (semantycznie lub pod względem wykonania) między def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] =...
Jak mogę przekonwertować RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) na Dataframe org.apache.spark.sql.DataFrame. Przekonwertowałem ramkę danych na rdd za pomocą .rdd. Po przetworzeniu chcę go z powrotem w ramce danych. W jaki sposób mogę to zrobić
Z mojego interfejsu użytkownika Spark. Co to znaczy pominąć?
Przeczytałem w dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Zakładam, że HashPartitionerdzieli rozproszony zestaw na podstawie skrótu kluczy. Na przykład, jeśli moje dane są podobne (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Więc partycjoner umieściłby...