Apache Spark: wpływ repartycjonowania, sortowania i buforowania na złączenie
Badam zachowanie Sparka, gdy dołączam do stołu do siebie. Używam Databricks. Mój fikcyjny scenariusz to: Odczytaj zewnętrzną tabelę jako ramkę danych A (pliki bazowe są w formacie delta) Zdefiniuj ramkę danych B jako ramkę danych A z wybranymi tylko niektórymi kolumnami Połącz ramki danych A i B...