Menge an Daten, die Sie jede Lösung sortieren RDD sind so befestigt, dass in einem gewissen Sinne zu mischen haben zu erhalten, die schlurft schon so wenig wie möglich minimal ist. Der einzige, der verbessert werden kann, indem der Sortiermechanismus in shuffle gedrückt wird, aber dieser Teil wird bereits von RDD.sortBy
, OrderedRDDFunctions.sortByKey
oder JavaPairRDD.sortByKey
gehandhabt.
Wählen Sie eine Methode, die auf Ihre Daten anwendbar ist. So zum Beispiel:
val rdd = org.apache.spark.mllib.random.RandomRDDs.normalRDD(sc, 100, 10, 323L)
rdd.sortBy(identity).take(3)
// Array[Double] =
// Array(-2.678684754806642, -1.4394327869537575, -1.2573154896913827)