2016-08-09 55 views
0

Ich sehe, dass Apache Spark plant Reihe von Stufen mit einer festen 200 Aufgaben beteiligt. Da dies bei einer Reihe verschiedener Jobs immer wieder passiert, vermute ich, dass dies irgendwie mit einer Spark-Konfiguration zusammenhängt. Irgendwelche Vorschläge, was diese Konfiguration sein könnte?Spark Fix Task-Nummer für Funken Sql-Jobs

Antwort

2

200 ist eine Standardanzahl von Partitionen, die während der Mischvorgänge verwendet werden. Sie wird von spark.sql.shuffle.partitions gesteuert. Sein Wert kann zur Laufzeit festgelegt mit SQLContext.setConf:

sqlContext.setConf("spark.sql.shuffle.partitions", "42") 

oder RuntimeConfig.set

spark.conf.set("spark.sql.shuffle.partitions", 42) 
+0

Danke, geht das versuchen. Aber gibt es einen Grund, warum du 42 vorschlägst? Ich habe überlegt, die Anzahl zu erhöhen. –

+1

Nur weil dies eine Antwort auf alles ist :) Im Ernst, das hängt von Ihren Daten und Einstellungen ab, also habe ich einfach die erste Nummer verwendet, die mir in den Sinn kommt. – zero323

+0

das Problem gelöst. Ich habe es in meinem Fall auf 512 erhöht. –