verarbeiten Ich benutze mrjob, um einen Stapel von Dateien zu verarbeiten und einige Statistiken zu erhalten. Ich weiß, ich kann mapreduce Job auf einer einzigen Datei, wieWie kann ich iterately alle Dateien in einem Verzeichnis mit mrjob
python count.py <some_input_file> output
Aber wie kann ich füttern ein Verzeichnis von Dateien in das Skript ausführen? Die Dateiverzeichnisstruktur ist wie folgt: folder/subfolders/files
, gibt es einen Vorschlag?