Wie kann ich iterately alle Dateien in einem Verzeichnis mit mrjob

2012-12-07 11 views 5 likes

verarbeiten Ich benutze mrjob, um einen Stapel von Dateien zu verarbeiten und einige Statistiken zu erhalten. Ich weiß, ich kann mapreduce Job auf einer einzigen Datei, wieWie kann ich iterately alle Dateien in einem Verzeichnis mit mrjob

python count.py <some_input_file> output

Aber wie kann ich füttern ein Verzeichnis von Dateien in das Skript ausführen? Die Dateiverzeichnisstruktur ist wie folgt: folder/subfolders/files, gibt es einen Vorschlag?

Quelle

2012-12-07 Chunliang Lyu

Antwort

Nun, endlich finde ich, dass ich ein Verzeichnis als Eingabepfad angeben kann und Hadoop wird alle Dateien in diesem Verzeichnis verarbeiten.

Weiter in meinem Fall habe ich Unterverzeichnisse, die die Eingabedateien enthalten. Hadoop wird Verzeichnis nicht rekursiv transversieren und wird standardmäßig Fehler verursachen. Ein üblicher Trick ist die Verwendung von Wildcard-Globs wie

python count.py hdfs://master-host/directory/*/*.txt > result

Quelle

2012-12-07 12:48:20

Wie kann ich iterately alle Dateien in einem Verzeichnis mit mrjob

Antwort

Verwandte Themen