Spark pflegen Paar cluster modes. Garn, Mesos und Standalone. Sie können mit dem Standalone-Modus beginnen, was bedeutet, dass Sie an Ihrem Cluster-Dateisystem arbeiten.
Wenn Sie mit Amazon EC2 arbeiten, können Sie sich auf die following article beziehen, um Spark-integrierte Skripts zu verwenden, die Spark-Cluster automatisch laden.
Wenn Sie auf einer On-Prem-Umgebung ausgeführt werden, die Art und Weise im Standalone-Modus auszuführen ist wie folgt: ein Funken
-Start einen eigenständigen Master wird auszudrucken
./sbin/start-master.sh
-Der Meister : // HOST: PORT-URL für sich selbst. Für jeden Arbeiter (Maschine) auf dem Cluster die URL im folgenden Befehl verwenden:
./sbin/start-slave.sh <master-spark-URL>
-Um zu bestätigen, dass der Arbeitnehmer zum Cluster hinzugefügt wurde, können Sie auf die folgende URL verweisen: http://localhost:8080 auf Ihrem Master Maschine und rufen Sie Spark UI, die mehr Informationen über den Cluster und seine Arbeiter zeigt.
Es gibt viele weitere Parameter zu spielen. Für weitere Informationen, siehe bitte documentation
Hoffe, ich habe es geschafft zu helfen! :)
Werfen Sie einen Blick auf [diesen Beitrag] (https://mesosphere.com/blog/2015/08/14/powering-big-data-with-spark-and-hdfs-on-apache-mesos/). Es beantwortet Ihre Frage nicht, da es zeigt, wie Sie Mesos + HDFS + Spark einrichten – janisz