Ich versuche, Dateien aus einem Verzeichnis zu lesen, das viele Unterverzeichnisse enthält. Die Daten sind in S3 und ich versuche, dies zu tun:Dateien rekursiv aus Unterverzeichnissen mit Spark von s3 oder lokalem Dateisystem lesen
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
dies scheint nicht zu funktionieren.
Schätzen Sie die Hilfe
Haben Sie nicht versucht, starten nur mit 'textFile (" s3n: ///* ")'? –
ja, das habe ich ausprobiert, funktioniert nicht – venuktan
Bitte poste ein Beispiel wie die Verzeichnisse verschachtelt sind. Es gibt wahrscheinlich eine Lösung mit einfachen Platzhaltern, wie: 's3n: // bucket/*/*/*'. –