Ich bin verwirrt über den Umgang mit Executor-Speicher und Treiberspeicher in Spark.Wie mit Executor-Speicher und Treiberspeicher in Spark umzugehen?
sind Meine Umgebungseinstellungen wie folgt:
- Speicher 128 G, 16 CPU für 9 VM
- Centos
- Hadoop 2.5.0-cdh5.2.0
- Funken 1.1.0
Eingangsdateninformation:
- 3,5 GB Datendatei von HDFS
Für einfache Entwicklung, ausgeführt ich meinen Python-Code im Standalone-Cluster-Modus (8 Arbeiter, 20 Kerne, 45,3 G-Speicher) mit spark-submit
. Jetzt möchte ich Executor-Speicher oder Treiberspeicher für Performance-Tuning festlegen.
Vom Spark documentation, die Definition für Exekutor Speicher
Speichermenge pro Exekutor Verfahren zu verwenden, in dem gleichen Format wie JVM Speicherketten (z.B. 512M, 2g).
Wie wäre es mit Treiberspeicher?