Lesen Sie das Papier über MapReduce und es wird erwähnt, alle Zwischenschlüssel zu gruppieren.Wie kann in MapReduce dieselbe Aufgabe auf mehreren Computern ausgeführt werden?
Wenn ein Arbeiter reduzieren alle Zwischendaten gelesen hat, sortiert sie es durch den Zwischenschlüssel, so dass alle Vorkommen des gleichen Schlüssel zusammen gruppiert sind. Die Sortierung ist erforderlich, weil in der Regel viele verschiedene Schlüssel auf die gleiche Aufgabe zu mappen. Wenn die Menge an Zwischendaten zu groß ist in Speicher zu passen, wird ein externer Art
Früher gab es dort Erwähnung derselben reduzieren Aufgabe wird auf mehreren Maschinen exectued.
Wenn eine reduzierende Aufgabe abgeschlossen ist, benennt der reduce-Mitarbeiter seine temporäretemporäre Ausgabedatei in die endgültige Ausgabedatei um. Wenn die gleiche Task auf mehreren Maschinen ausgeführt wird, werden mehrere Umbenennungsaufrufe für die gleiche endgültige Ausgabedatei ausgeführt.
Wenn die gleichen Schlüssel zusammen gruppiert werden, wird das nicht zu einer Aufgabe, die von einem Mitarbeiter reduziert wird? Wie kann dieselbe Aufgabe auf mehreren Maschinen ausgeführt werden?
Die gleiche Reduce-Task kann auf mehreren Maschinen ausgeführt werden. –