2016-07-29 11 views
0

Ich bin in der Lage, die RDD-Ausgabe in HDFS mit saveAsTextFile Methode zu speichern. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits existiert.Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich habe einen Anwendungsfall, wo ich das RDDS in einem bereits vorhandenen Dateipfad in HDFS speichern muss. Gibt es eine Möglichkeit, die neuen RDD-Daten einfach an die Daten anzuhängen, die bereits im selben Pfad vorhanden sind?

Antwort

5

Eine mögliche Lösung, verfügbar seit Spark-1.6 ist DataFrames mit text Format zu verwenden und append Modus:

val outputPath: String = ??? 

rdd.map(_.toString).toDF.write.mode("append").text(outputPath) 
+0

ich es versucht. Aber, ich habe diese Ausnahme java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameWriter.text (Ljava/lang/String;) V – yAsH

+0

Welche Version von Spark verwenden Sie? – zero323

+0

Hoppla. Ich benutze Funken Version 1.5. – yAsH