Es gibt einen großen Unterschied. Es wird häufig als "Problem mit kleinen Dateien" bezeichnet und hat damit zu tun, dass Hadoop erwartet, riesige Eingaben in kleinere Aufgaben aufzuteilen, aber keine kleinen Eingaben in größere Aufgaben zu sammeln.
Werfen Sie einen Blick auf diesen Blog-Post von Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
Wenn Sie vermeiden können viele Dateien erstellen, so tun. Verketten wenn möglich. Große teilbare Dateien sind VIEL besser für Hadoop.
Ich einmal lief Schwein auf dem Netflix-Datensatz. Es dauerte Stunden, ein paar Gigs zu bearbeiten. Ich verkettete dann die Eingabedateien (ich glaube, es war eine Datei pro Film oder eine Datei pro Benutzer) in einer einzigen Datei - hatte mein Ergebnis in Minuten.