Ich sammle Protokolle mit Flume zum HDFS. Für den Testfall habe ich kleine Dateien (~ 300kB), weil der Log-Sammelvorgang für die reale Nutzung skaliert wurde.Welches ist der einfachste Weg, kleine HDFS-Blöcke zu kombinieren?
Gibt es eine einfache Möglichkeit, diese kleinen Dateien zu größeren zu kombinieren, die näher an der HDFS-Blockgröße (64 MB) liegen?
Möchten Sie Dateien für die Speicherung oder für Mapreduce-Job-Eingaben kombinieren? – wlk
Gibt es eine Möglichkeit, sie aus der Perspektive eines Mappers zu kombinieren? –
Ich möchte sie für den Speicher kombinieren –