Pytania oznaczone «apache-spark»

143
Jak etapy są dzielone na zadania w Spark?

Załóżmy, że w każdym momencie działa tylko jedno zadanie Spark. Co mam do tej pory Oto, co rozumiem, co dzieje się w Spark: Po SparkContextutworzeniu węzła roboczego każdy węzeł roboczy uruchamia moduł wykonawczy. Executory to oddzielne procesy (JVM), które łączą się z powrotem z programem...

140
Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD map a mapPartitionsmetodą? I flatMapzachowuje się jak maplub jak mapPartitions? Dzięki. (edytuj) tj. jaka jest różnica (semantycznie lub pod względem wykonania) między def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] =...

127
Jak ustawić pamięć Apache Spark Executor

Jak mogę zwiększyć ilość pamięci dostępnej dla węzłów wykonawczych Apache Spark? Mam plik 2 GB, który nadaje się do załadowania do Apache Spark. W tej chwili używam Apache Spark na 1 maszynie, więc sterownik i executor są na tej samej maszynie. Maszyna posiada 8 GB pamięci. Kiedy próbuję policzyć...

124
Jak wydrukować zawartość RDD?

Próbuję wydrukować zawartość kolekcji do konsoli Spark. Mam typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] I używam polecenia: scala> linesWithSessionId.map(line => println(line)) Ale to jest drukowane: res1: org.apache.spark.rdd.RDD [Unit] = zmapowanyRDD...

111
importowanie pyspark w powłoce Pythona

To jest kopia czyjegoś pytania na innym forum, na które nigdy nie udzielono odpowiedzi, więc pomyślałem, że zadam je tutaj ponownie, ponieważ mam ten sam problem. (Zobacz http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Mam poprawnie zainstalowanego Spark'a na moim komputerze i jestem...

110
Załaduj plik CSV za pomocą Sparka

Jestem nowy w Spark i próbuję odczytać dane CSV z pliku za pomocą Spark. Oto co robię: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Spodziewałbym się, że to wywołanie da mi listę dwóch pierwszych kolumn mojego pliku, ale otrzymuję ten...

108
Jak nadpisać katalog wyjściowy w Spark

Mam aplikację do przesyłania strumieniowego iskier, która tworzy zestaw danych dla każdej minuty. Potrzebuję zapisać / nadpisać wyniki przetwarzanych danych. Kiedy próbowałem nadpisać zbiór danych org.apache.hadoop.mapred.FileAlreadyExistsException zatrzymuje wykonanie. Ustawiłem właściwość Spark...

101
Spark Kill Running Application

Mam uruchomioną aplikację Spark, w której zajmuje ona wszystkie rdzenie, na których moje inne aplikacje nie otrzymają żadnego zasobu. Zrobiłem kilka szybkich badań i ludzie zasugerowali użycie YARN kill lub / bin / spark-class do zabicia polecenia. Jednak używam wersji CDH i / bin / spark-class w...