meinen Code anzeigenRDD, PySpark, Warum rdd.flatMap scheint keine Operation in CPU?
In [10]: rdd = sc.mongoPairRDD("mongodb://localhost/stackoverflow.stack")
......
A lot of INFO
......
In [11]: newrdd = rdd.flatMap(f)
# No INFO
In [12]: newrdd.collect()
# A lot of INFO
Wenn eine Funktion von rdd
Anruf war, sagen flatMap
, es das System scheint nicht den Code der Funktion ausgeführt werden. Aber wenn, sagen wir Anruf collect()
, läuft das System und sammelt alle Daten aus dem Speicher oder der Festplatte?
Bin ich richtig?