Spark bieten Methode saveAsTextFile
, die RDD[T]
in Disk oder hdfs leicht speichern können.So laden Sie Daten aus gespeicherter Datei mit Spark
T ist eine beliebige serialisierbare Klasse.
Ich möchte den Vorgang umkehren. Ich frage mich, ob es eine loadFromTextFile
gibt, die leicht eine Datei in RDD[T]
laden kann?
Lassen Sie mich klarstellen:
class A extends Serializable {
...
}
val path:String = "hdfs..."
val d1:RDD[A] = create_A
d1.saveAsTextFile(path)
val d2:RDD[A] = a_load_function(path) // this is the function I want
//d2 should be the same as d1
Aber es erzeugt RDD [Zeichenfolge], ich brauche RDD [T]. – worldterminator
Ich denke, Spark unterstützt das standardmäßig nicht. Sie können jedoch Ihre ursprüngliche RDD in einen bestimmten Typ konvertieren. Ich aktualisiere meine Antwort. Bitte überprüfen. – Ramana