0

Ich versuche, einen EMR-Cluster mit Spark (1.6.0) und Hadoop (Distribution: Amazon 2.7.1) Anwendungen zu starten. Das Freigabelabel ist emr-4.4.0. Der Cluster wird nach Bedarf eingerichtet, aber er führt den Spark-Master (in den Master-Instanzen) nicht als Daemon-Prozess aus. Ich finde auch nicht, dass Spark in den Worker (Core) -Instanzen installiert ist (das Spark-Verzeichnis unter /usr/lib/ hat nur lib und Garn Verzeichnisse).Wie erhalte ich Spark beim Erstellen des Clusters auf den EMR Core/Worker-Knoten/Instanzen von Amazon?

Ich möchte die Spark Master und Worker-Knoten ausführen, sobald der Cluster eingerichtet wurde. (d. h. Arbeiter stellen automatisch eine Verbindung mit dem Master her und werden ein Teil des Spark-Clusters).

Wie erreiche ich das? Oder fehlt mir etwas?

Vielen Dank im Voraus!

Antwort

0

Spark on EMR ist im YARN-Modus installiert. Dies ist der Grund, warum Sie keine eigenständigen Master und Slave-Daemons sehen können. http://spark.apache.org/docs/latest/running-on-yarn.html

Eigenständige Spark-Master- und Worker-Daemons werden nur im Spark-Standalone-Modus generiert. http://spark.apache.org/docs/latest/spark-standalone.html

Nun, wenn Sie nicht möchten, Funken Meister und Arbeiter auf EMR laufen, können Sie tun, so

/usr/lib/spark/sbin/start-master.sh 
/usr/lib/spark/sbin/start-slave.sh 

und Konfiguration entsprechend verwenden.