Pytania oznaczone «bigdata»

16

Pisanie ponad 50 milionów z Pyspark df do PostgresSQL, najbardziej efektywne podejście

Jaki byłby najbardziej efektywny sposób wstawiania milionów rekordów, mówi 50 milionów z ramki danych Spark do tabel Postgres. Robiłem to od Spark do MSSQL w przeszłości, korzystając z opcji kopiowania zbiorczego i opcji wielkości partii , która również się powiodła. Czy istnieje coś podobnego...

15

Użycie R do rozwiązania gry Lucky 26

Próbuję pokazać mojemu synowi, w jaki sposób kodowania można użyć do rozwiązania problemu związanego z grą, a także zobaczyć, jak R obsługuje duże zbiory danych. Ta gra nazywa się „Lucky 26”. W tej grze numery (1-12 bez duplikatów) są umieszczane na 12 punktach na gwiazdce Davida (6 wierzchołków, 6...

r bigdata permutation

10

Apache Spark: wpływ repartycjonowania, sortowania i buforowania na złączenie

Badam zachowanie Sparka, gdy dołączam do stołu do siebie. Używam Databricks. Mój fikcyjny scenariusz to: Odczytaj zewnętrzną tabelę jako ramkę danych A (pliki bazowe są w formacie delta) Zdefiniuj ramkę danych B jako ramkę danych A z wybranymi tylko niektórymi kolumnami Połącz ramki danych A i B...

apache-spark pyspark bigdata azure-databricks delta-lake