In Pyspark, kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen zu haben:Anzahl der Partitionen in RDD und Leistung in Spark-
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Wie funktioniert die Anzahl der Partitionen ich entscheiden, meine RDD zu partitionieren Beeinflusst die Leistung? Und wie hängt das von der Anzahl der Kern meiner Maschine ab?
Ich empfehle diese [link] (http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/). Wechseln Sie zum Abschnitt "Tuning Parallelism". Es wird ziemlich kompliziert, aber es ist sicherlich in der Tiefe. –