Ich schrieb ein Spark-Programm, das die Funktionalität eines vorhandenen Map Reduce-Jobs nachahmt. Der MR-Job dauert etwa 50 Minuten pro Tag, aber der Spark-Job dauerte nur 9 Minuten! Das ist großartig!Spark: Schnitt Nr. der Ausgabedateien
Als ich das Ausgabeverzeichnis anschaute, bemerkte ich, dass es 1.020 Teildateien erstellte. Der MR-Job verwendet nur 20 Reduzierungen, so dass nur 20 Dateien erstellt werden. Wir müssen die Anzahl der Ausgabedateien reduzieren. ansonsten wäre unser Namespace in kürzester Zeit voll.
Ich versuche herauszufinden, wie ich die Anzahl der Ausgabedateien unter Spark reduzieren kann. Scheint wie 1.020 Aufgaben ausgelöst werden und jeder erstellt eine Teildatei. Ist das richtig? Muss ich das Niveau der Parallelität ändern, um Nr. Zu verringern. von Aufgaben, wodurch Nr. reduziert wird. von Ausgabedateien? Wenn ja, wie stelle ich es ein? Ich habe Angst, nein zu schneiden. von Aufgaben wird diesen Prozess verlangsamen - aber ich kann das testen!
Vielen Dank Mikel. Es hat sehr gut funktioniert. Habe auch etwas schlechten Code auf meiner Seite entfernt, so dass es jetzt sogar noch schneller läuft. Gesamtzeit: 5 Minuten! Apache Spark ROCKS! – DilTeam
Ich bin froh, dass es funktioniert hat. Wenn diese Antwort die Lösung für Ihr Problem ist, überprüfen Sie sie bitte als endgültige Antwort, um die Frage zu schließen. –
Ich habe einen Blick auf andere Ihrer Fragen geworfen und niemand wurde als beantwortet markiert, obwohl sie tatsächlich gelöst wurden. Bitte aktualisieren Sie Ihre Fragen und markieren Sie die Antworten (auch wenn sie von Ihnen gegeben wurden). –