Pytania oznaczone «apache-spark»

82
Jak działa HashPartitioner?

Przeczytałem w dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Zakładam, że HashPartitionerdzieli rozproszony zestaw na podstawie skrótu kluczy. Na przykład, jeśli moje dane są podobne (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Więc partycjoner umieściłby...

81
Jak połączyć PyCharm z PySpark?

Jestem nowy z Apache Spark i najwyraźniej zainstalowałem Apache-Spark z Homebrew w moim Macbooku: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on...

12
pandasUDF i pyarrow 0.15.0

Niedawno zacząłem otrzymywać błędy w wielu pysparkzadaniach uruchomionych w klastrach EMR. Errosy są java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at...

9
Spark: UDF wykonywany wiele razy

Mam ramkę danych z następującym kodem: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...