Pytania oznaczone «apache-spark»

99

Jak stworzyć pustą ramkę DataFrame z określonym schematem?

Chcę tworzyć dalej DataFramez określonym schematem w Scali. Próbowałem użyć odczytu JSON (mam na myśli czytanie pustego pliku), ale nie sądzę, że to najlepsza praktyka.

95

Apache Spark: Jak używać pyspark w Pythonie 3

Zbudowałem Spark 1.4 od mistrza rozwoju GH i kompilacja przebiegła pomyślnie. Ale kiedy robię bin/pyspark, otrzymuję wersję Pythona 2.7.9. Jak mogę to zmienić?

python python-3.x apache-spark

93

Co oznaczają liczby na pasku postępu w powłoce iskry?

Co w mojej powłoce iskrowej oznaczają wpisy takie jak poniżej, gdy wykonuję funkcję? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

93

Spark - Błąd „Główny adres URL musi być ustawiony w konfiguracji” podczas przesyłania aplikacji

Mam aplikację Spark, która działa bez problemu w trybie lokalnym, ale mam pewne problemy podczas przesyłania do klastra Spark. Komunikaty o błędzie są następujące: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):

scala apache-spark

93

Jak skonfigurować Sparka w systemie Windows?

Próbuję skonfigurować Apache Spark w systemie Windows. Po krótkich poszukiwaniach rozumiem, że tryb samodzielny jest tym, czego chcę. Jakie pliki binarne należy pobrać, aby uruchomić Apache Spark w systemie Windows? Widzę dystrybucje z hadoopem i cdh na stronie pobierania Spark. Nie mam w...

windows apache-spark

93

Zmienianie nazw kolumn DataFrame w Spark Scala

Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFramew Spark-Scala. na razie wymyślam następujący kod, który zastępuje tylko jedną nazwę kolumny. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

scala apache-spark dataframe apache-spark-sql

92

java.io.IOException: nie można zlokalizować pliku wykonywalnego null \ bin \ winutils.exe w plikach binarnych Hadoop. Spark Eclipse w systemie Windows 7

Nie mogę uruchomić prostego sparkzadania w Scala IDE(projekcie Maven Spark) zainstalowanym naWindows 7 Dodano zależność Spark Core. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Błąd:...

eclipse scala apache-spark

91

Czy iskra Apache może działać bez hadoopa?

Czy są jakieś zależności między platformą Spark i Hadoop ? Jeśli nie, czy są jakieś funkcje, za którymi będę tęsknić, uruchamiając Spark bez Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

89

Błąd powłoki Spark w systemie Mac podczas inicjowania SparkContext

Próbowałem uruchomić Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) na Mac OS Yosemite 10.10.5 używając "./bin/spark-shell". Zawiera poniższy błąd. Próbowałem też zainstalować różne wersje Sparka, ale wszystkie mają ten sam błąd. To już drugi raz, kiedy uruchamiam Sparka. Mój poprzedni bieg działa...

apache-spark

88

Jak ustawić wersję sterownika w języku Python w Spark?

Używam Spark 1.4.0-rc2, więc mogę używać Pythona 3 z Spark. Jeśli dodam export PYSPARK_PYTHON=python3do mojego pliku .bashrc, mogę uruchomić Spark interaktywnie z Pythonem 3. Jednak jeśli chcę uruchomić samodzielny program w trybie lokalnym, pojawia się błąd: Exception: Python in worker has...

apache-spark pyspark

88

Co oznacza „Pominięcie etapu” w interfejsie internetowym Apache Spark?

Z mojego interfejsu użytkownika Spark. Co to znaczy pominąć?

apache-spark rdd

88

Spark DataFrame groupBy i sortuj w kolejności malejącej (pyspark)

Używam pyspark (Python 2.7.9 / Spark 1.3.1) i mam Dataframe GroupObject, którą muszę filtrować i sortować w kolejności malejącej. Próbuję to osiągnąć za pomocą tego fragmentu kodu. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ale generuje następujący...

python apache-spark dataframe pyspark apache-spark-sql

86

Wyodrębnij wartości kolumn Dataframe jako List w Apache Spark

Chcę przekonwertować kolumnę z ciągiem ramki danych na listę. To, co mogę znaleźć w DataframeAPI, to RDD, więc najpierw próbowałem przekonwertować go z powrotem na RDD, a następnie zastosować toArrayfunkcję do RDD. W takim przypadku długość i SQL działają dobrze. Jednak wynik, który otrzymałem z...

scala apache-spark apache-spark-sql

85

Dlaczego zadania Spark kończą się niepowodzeniem z org.apache.spark.shuffle.MetadataFetchFailedException: brak lokalizacji wyjściowej dla shuffle 0 w trybie spekulacji?

Prowadzę pracę na Spark w trybie spekulacji. Mam około 500 zadań i około 500 skompresowanych plików o wielkości 1 GB gz. Ciągle dostaję się do każdej pracy, dla 1-2 zadań, dołączony błąd, w którym powtarza się potem dziesiątki razy (uniemożliwiając wykonanie zadania)....

apache-spark

85

Jak zapisać DataFrame bezpośrednio w Hive?

Czy można zapisać DataFramew Spark bezpośrednio w Hive? Próbowałem przekonwertować DataFramedo, Rdda następnie zapisać jako plik tekstowy, a następnie załadować w gałęzi. Ale zastanawiam się, czy mogę bezpośrednio zapisać dataframedo ula

scala apache-spark hive apache-spark-sql

84

Jak dostroić numer executora, rdzenie i pamięć executora?

Od czego zaczynasz strojenie wyżej wymienionych parametrów. Czy zaczynamy od pamięci executorów i uzyskujemy liczbę executorów, czy zaczynamy od rdzeni i uzyskujemy numer executora. Podążyłem za linkiem . Mam jednak pomysł na wysokim poziomie, ale nadal nie wiem, jak i od czego zacząć i dojść do...

apache-spark

83

Jakie są zalety Apache Beam nad Spark / Flink w przetwarzaniu wsadowym?

Apache Beam obsługuje wiele backendów runner, w tym Apache Spark i Flink. Znam Spark / Flink i próbuję zobaczyć zalety / wady Beam do przetwarzania wsadowego. Patrząc na przykład liczby słów Beam , wydaje się, że jest bardzo podobny do rodzimych odpowiedników Spark / Flink, może z nieco...

apache-spark apache-flink apache-beam

83

Spark Dataframe rozróżnia kolumny ze zduplikowaną nazwą

Tak więc, jak wiem, w Spark Dataframe, dla wielu kolumn może mieć taką samą nazwę, jak pokazano poniżej migawka dataframe: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831,...

python apache-spark dataframe pyspark apache-spark-sql

83

Jak przekazać parametr -D lub zmienną środowiskową do zadania Spark?

Chcę zmienić konfigurację Typesafe zadania Spark w środowisku dev / prod. Wydaje mi się, że najłatwiejszym sposobem na osiągnięcie tego jest przejście -Dconfig.resource=ENVNAMEdo pracy. Wtedy biblioteka konfiguracyjna Typesafe zrobi to za mnie. Czy istnieje sposób, aby przekazać tę opcję...

scala apache-spark

83

Błąd Spark - nieobsługiwana wersja główna pliku klasy

Próbuję zainstalować Sparka na moim Macu. Użyłem domowego naparu do zainstalowania Spark 2.4.0 i Scali. Zainstalowałem PySpark w moim środowisku anaconda i używam PyCharm do programowania. Wyeksportowałem do mojego profilu bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort |...

java python macos apache-spark pyspark