Der Schritt ist:Kann nicht verstehen, wie Spark python bei Yarn laufen ließ? Wie geht der ProcessBuilder mit der Zip-Datei um?
1.Package alle Python-Dateien in die pyspark.zip beim Erstellen von Spark.
2.spark-submit to Yarn es verteilt die pyspark.zip auf alle Maschinen.
3.Spark Worker finden Sie die pyspark.zip und verarbeiten Sie die Python-Datei darin.
Aber der Code here und here zeigt, dass es nur den Pfad der ZIP-Dateien in die Umgebung von ProcessBuilder einfügt. Und ich habe den Code nicht gefunden, der pypark.zip entpackt.
Also ich frage mich, wie entpackt ProcessBuilder die pyspark.zip? Oder wie führt Spark Worker die Python-Dateien in pyspark.zip aus?