Eines der wichtigsten Beispiele für die Leistungsfähigkeit von MapReduce ist die Terasort benchmark. Ich habe Probleme, die Grundlagen des in der MapReduce-Umgebung verwendeten Sortieralgorithmus zu verstehen.Wie funktioniert der MapReduce-Sortieralgorithmus?
Für mich bedeutet Sortieren einfach die relative Position eines Elements in Beziehung zu allen anderen Elementen zu bestimmen. Sortieren bedeutet also, "alles" mit "alles" zu vergleichen. Ihr durchschnittlicher Sortieralgorithmus (schnell, bubble, ...) macht das einfach auf intelligente Weise.
Wenn ich den Datensatz in viele Teile aufspalte, bedeutet das, dass man ein einzelnes Stück sortieren kann und dann diese Teile in den "vollständigen" vollständig sortierten Datensatz integrieren muss. Angesichts des Terabyte-Datensatzes, der auf Tausende von Systemen verteilt ist, erwarte ich, dass dies eine große Aufgabe ist.
Also, wie ist das wirklich gemacht? Wie funktioniert dieser MapReduce-Sortieralgorithmus?
Vielen Dank für Ihr Verständnis.
Ich verstehe (die meisten) die Konzepte von MapReduce wie in den genannten Dokumenten beschrieben. Ich versuche den Sortieralgorithmus zu verstehen. –