Chcę tworzyć dalej DataFramez określonym schematem w Scali. Próbowałem użyć odczytu JSON (mam na myśli czytanie pustego pliku), ale nie sądzę, że to najlepsza praktyka.
Chcę tworzyć dalej DataFramez określonym schematem w Scali. Próbowałem użyć odczytu JSON (mam na myśli czytanie pustego pliku), ale nie sądzę, że to najlepsza praktyka.
Zbudowałem Spark 1.4 od mistrza rozwoju GH i kompilacja przebiegła pomyślnie. Ale kiedy robię bin/pyspark, otrzymuję wersję Pythona 2.7.9. Jak mogę to zmienić?
Co w mojej powłoce iskrowej oznaczają wpisy takie jak poniżej, gdy wykonuję funkcję? [Stage7:===========> (14174 + 5) / 62500]
Mam aplikację Spark, która działa bez problemu w trybie lokalnym, ale mam pewne problemy podczas przesyłania do klastra Spark. Komunikaty o błędzie są następujące: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):
Próbuję skonfigurować Apache Spark w systemie Windows. Po krótkich poszukiwaniach rozumiem, że tryb samodzielny jest tym, czego chcę. Jakie pliki binarne należy pobrać, aby uruchomić Apache Spark w systemie Windows? Widzę dystrybucje z hadoopem i cdh na stronie pobierania Spark. Nie mam w...
Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFramew Spark-Scala. na razie wymyślam następujący kod, który zastępuje tylko jedną nazwę kolumny. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...
Nie mogę uruchomić prostego sparkzadania w Scala IDE(projekcie Maven Spark) zainstalowanym naWindows 7 Dodano zależność Spark Core. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Błąd:...
Czy są jakieś zależności między platformą Spark i Hadoop ? Jeśli nie, czy są jakieś funkcje, za którymi będę tęsknić, uruchamiając Spark bez Hadoop ?
Próbowałem uruchomić Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) na Mac OS Yosemite 10.10.5 używając "./bin/spark-shell". Zawiera poniższy błąd. Próbowałem też zainstalować różne wersje Sparka, ale wszystkie mają ten sam błąd. To już drugi raz, kiedy uruchamiam Sparka. Mój poprzedni bieg działa...
Używam Spark 1.4.0-rc2, więc mogę używać Pythona 3 z Spark. Jeśli dodam export PYSPARK_PYTHON=python3do mojego pliku .bashrc, mogę uruchomić Spark interaktywnie z Pythonem 3. Jednak jeśli chcę uruchomić samodzielny program w trybie lokalnym, pojawia się błąd: Exception: Python in worker has...
Z mojego interfejsu użytkownika Spark. Co to znaczy pominąć?
Używam pyspark (Python 2.7.9 / Spark 1.3.1) i mam Dataframe GroupObject, którą muszę filtrować i sortować w kolejności malejącej. Próbuję to osiągnąć za pomocą tego fragmentu kodu. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ale generuje następujący...
Chcę przekonwertować kolumnę z ciągiem ramki danych na listę. To, co mogę znaleźć w DataframeAPI, to RDD, więc najpierw próbowałem przekonwertować go z powrotem na RDD, a następnie zastosować toArrayfunkcję do RDD. W takim przypadku długość i SQL działają dobrze. Jednak wynik, który otrzymałem z...
Prowadzę pracę na Spark w trybie spekulacji. Mam około 500 zadań i około 500 skompresowanych plików o wielkości 1 GB gz. Ciągle dostaję się do każdej pracy, dla 1-2 zadań, dołączony błąd, w którym powtarza się potem dziesiątki razy (uniemożliwiając wykonanie zadania)....
Czy można zapisać DataFramew Spark bezpośrednio w Hive? Próbowałem przekonwertować DataFramedo, Rdda następnie zapisać jako plik tekstowy, a następnie załadować w gałęzi. Ale zastanawiam się, czy mogę bezpośrednio zapisać dataframedo ula
Od czego zaczynasz strojenie wyżej wymienionych parametrów. Czy zaczynamy od pamięci executorów i uzyskujemy liczbę executorów, czy zaczynamy od rdzeni i uzyskujemy numer executora. Podążyłem za linkiem . Mam jednak pomysł na wysokim poziomie, ale nadal nie wiem, jak i od czego zacząć i dojść do...
Apache Beam obsługuje wiele backendów runner, w tym Apache Spark i Flink. Znam Spark / Flink i próbuję zobaczyć zalety / wady Beam do przetwarzania wsadowego. Patrząc na przykład liczby słów Beam , wydaje się, że jest bardzo podobny do rodzimych odpowiedników Spark / Flink, może z nieco...
Tak więc, jak wiem, w Spark Dataframe, dla wielu kolumn może mieć taką samą nazwę, jak pokazano poniżej migawka dataframe: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831,...
Chcę zmienić konfigurację Typesafe zadania Spark w środowisku dev / prod. Wydaje mi się, że najłatwiejszym sposobem na osiągnięcie tego jest przejście -Dconfig.resource=ENVNAMEdo pracy. Wtedy biblioteka konfiguracyjna Typesafe zrobi to za mnie. Czy istnieje sposób, aby przekazać tę opcję...
Próbuję zainstalować Sparka na moim Macu. Użyłem domowego naparu do zainstalowania Spark 2.4.0 i Scali. Zainstalowałem PySpark w moim środowisku anaconda i używam PyCharm do programowania. Wyeksportowałem do mojego profilu bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort |...