2016-06-25 4 views
0

Ich habe einige Dateien in meinem hdfs und ich möchte, dass sie in Funken verwenden. Ich bin in der Lage meine Dateien zu sehen, wenn ich den folgenden Befehl geben:Verwenden von Dateien aus HDFS in Apache Spark-

bin/hadoop dfs -ls /input 

Wie soll ich den Pfad dieser Datei in Funken geben einen RDD zu erstellen:

val input=sc.textFile("???") 

Antwort

0

Wenn Ihr Spark-Installation richtig ist konfiguriert, dann sollten Sie Ihre normalen HDFS Pfade arbeiten nur wörtlich unverändert Spark auch:

val input = sc.textFile("/input") 

Wenn das nicht funktioniert, dann wahrscheinlich, dass Sie Ihre Spark-Konfiguration vornehmen müssen ist properly picking up your Hadoop conf dir.

Sie können auch Ihre Dateilisten von Ihrem Spark-Code ausprobieren möchten direkt überprüft um sicherzustellen, dass die Konfigurationen richtig importiert zu werden:

import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.fs._ 

val path = new Path("/input") 
path.getFileSystem(new Configuration()).listStatus(path) 
+0

Ich erhalte die Fehlereingangspfad existiert nicht. Ich bin nicht in der Lage herauszufinden, wie Pfad der Eingabedatei, die in hdfs erstellt wird, geben. –