Ich habe einen großen Datenrahmen, den ich mit 800 Partitionen erstellt habe.Die Verwendung von dropDuplicates im Datenframe verursacht Änderungen in der Partitionsnummer
df.rdd.getNumPartitions()
800
Als ich dropDuplicates auf dem Datenrahmen verwenden, ändert es die Partitionen für mich 200
df = df.dropDuplicates()
df.rdd.getNumPartitions()
200
Dieses Verhalten führt Problem auf dem Standard, wie es aus der Erinnerung führen wird.
Haben Sie Vorschläge zur Behebung dieses Problems? Ich habe versucht, spark.sql.shuffle.partition auf 800 zu setzen, aber es funktioniert nicht. Dank
Mögliches Duplikat von [Entfernen von Duplikaten aus Zeilen basierend auf bestimmten Spalten in einem RDD/Spark DataFrame] (http://stackoverflow.com/questions/30248221/removing-duplicates-from-rows-based-on-specific-columns -in-rdd-spark-datafram) – eliasah