Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich bin in der Lage, die RDD-Ausgabe in HDFS mit saveAsTextFile Methode zu speichern. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits existiert.Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich habe einen Anwendungsfall, wo ich das RDDS in einem bereits vorhandenen Dateipfad in HDFS speichern muss. Gibt es eine Möglichkeit, die neuen RDD-Daten einfach an die Daten anzuhängen, die bereits im selben Pfad vorhanden sind?

Quelle

2016-07-29 yAsH

Eine mögliche Lösung, verfügbar seit Spark-1.6 ist DataFrames mit text Format zu verwenden und append Modus:

val outputPath: String = ??? 

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

Quelle

2016-07-29 16:41:16 zero323

ich es versucht. Aber, ich habe diese Ausnahme java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameWriter.text (Ljava/lang/String;) V – yAsH

Welche Version von Spark verwenden Sie? – zero323

Hoppla. Ich benutze Funken Version 1.5. – yAsH

Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Antwort

Verwandte Themen