Was passiert, wenn das Ergebnis der reduceByKey (_ + _) nicht überschreiten int Bereich

Ich versuche, eine einfache MR Job in Funken zu tun, hier sind die Codes:Was passiert, wenn das Ergebnis der reduceByKey (_ + _) nicht überschreiten int Bereich

val testRDD = someRDD.map((_, 1)).reduceByKey(_+_)

In der Karte Stufe ist der Wert Int Was ist, wenn in der Reduzierungsstufe der Wert zu groß ist und den Int-Bereich überschreitet? Ich kann wahrscheinlich so tun

val testRDD = someRDD.map((_, 1.toLong)).reduceByKey(_+_)

Aber gibt es eine bessere Idee?

Quelle

2016-07-07 user2961484

Nichts Spark spezifisch. Es führt einfach in einem integer overflow:

sc.parallelize(Seq(("a", Integer.MAX_VALUE), ("a", 1))).reduceByKey(_ + _).first 

// (String, Int) = (a,-2147483648)

Wenn Sie feststellen, dass Überlauffehler vermuten kann auftreten, Sie auf jeden Fall mehr entsprechenden Datentyp verwenden sollten und Long ist eine gute Wahl für ganzzahlige Werte:

sc.parallelize(Seq(
    ("a", Integer.MAX_VALUE.toLong), ("a", 1L) 
)).reduceByKey(_ + _).first 

// (String, Long) = (a,2147483648)

Quelle

2016-07-07 20:42:17 zero323

Was passiert, wenn das Ergebnis der reduceByKey (_ + _) nicht überschreiten int Bereich

Antwort

Verwandte Themen