Gibt es eine Möglichkeit, die Ausgabedateinamen eines Hadoop Streaming-Jobs zu steuern? Insbesondere möchte ich den Inhalt und den Namen meiner Job-Ausgabedateien von den Ket Reducer-Ausgaben organisiert werden - jede Datei würde nur Werte für einen Schlüssel enthalten und der Name wäre der Schlüssel.Wie kontrolliere ich den Namen und den Inhalt der Ausgabedateien eines Hadoop-Streaming-Jobs?
Update: Nur die Antwort gefunden - Verwenden Sie eine Java-Klasse, die von MultipleOutputFormat abgeleitet ist, da das Auftragsausgabeformat die Steuerung der Ausgabedateinamen ermöglicht. http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
Ich habe keine Proben für diese da draußen gesehen ... Kann jemand auf eine Hadoop Streaming Probe weisen darauf hin, dass die Verwendung eines benutzerdefinierten Ausgabeformat Java-Klasse macht?
Link zu neuen Dokumenten unterbrochen –