apache-spark
rdd
Aravind Yarram
źródło
źródło
Zwykle oznacza to, że dane zostały pobrane z pamięci podręcznej i nie było potrzeby ponownego wykonywania danego etapu. Jest to zgodne z Twoim DAG, który pokazuje, że następny etap wymaga shuffling ( reduceByKey
). Zawsze, gdy dochodzi do tasowania, Spark automatycznie buforuje wygenerowane dane :
Shuffle generuje również dużą liczbę plików pośrednich na dysku. Począwszy od Spark 1.3, te pliki są zachowywane, dopóki odpowiadające im RDD nie będą już używane i nie zostaną usunięte. Dzieje się tak, aby pliki losowe nie musiały być ponownie tworzone, jeśli pochodzenie zostanie ponownie obliczone.