2016-06-25 13 views
-1

Ich habe erfahren, dass datalocalization nur in Mapper-Phase anwendbar ist, was bedeutet, dass es die Ausgabe des Mappers in temp [konfiguriert in mapred-site.xml im lokalen Dateisystem] Ordner, um Netzwerkfehler zu behandeln.Warum die Datenlokalisierung für die Sortier- und Shuffle-Phase im Map Reduce-Prozess nicht anwendbar ist?

Aber dieser Prozess [datalocalization] ist nicht anwendbar für reducer phase bedeutet die Ausgabe von Minderer nicht in lokalem Dateisystem [LFS] gespeichert wird, warum es nicht zu LFS speichern Minderer-Ausgang erforderlich?

Antwort

0

Während der Mapper-Phase von MapReduce wird die Ausgabe [part-m-xxxx] im lokalen Dateisystem gespeichert, um alle netzwerkbezogenen Probleme zu vermeiden, die als datalocalization bezeichnet werden.

Aber die Reduktions Ausgabe wird in dem lokalen Dateisystem nicht gespeichert, weil:

  1. Selbst wenn etwas in der Reduktionsphase schief ging es Daten von Arbeiter/Datenknoten mit RPC bekommen.
  2. Wenn Reduktionsphase [part-r-xxxx] erfolgreich ist, dann ist es eine endgültige Ausgabe, so macht es keinen Sinn die endgültige Ausgabe als auch in dem lokalen Dateisystem zu speichern machen und die Plattenspeicher verschwenden.