2016-07-13 21 views
0

Ich machte eine Spark-Anwendung, die Dateidaten analysieren. Da die Größe der Eingabedatei sehr groß sein kann, reicht es nicht aus, meine Anwendung als eigenständige Anwendung auszuführen. Mit einer weiteren physischen Maschine, wie sollte ich Architektur dafür machen?Make Spark-Umgebung für Cluster

Ich überlege, mesos für Cluster-Manager, aber hübsch noobie bei hdfs. Gibt es eine Möglichkeit, ohne hdfs (für den Austausch von Dateidaten) zu machen?

+0

Werfen Sie einen Blick auf [diesen Beitrag] (https://mesosphere.com/blog/2015/08/14/powering-big-data-with-spark-and-hdfs-on-apache-mesos/). Es beantwortet Ihre Frage nicht, da es zeigt, wie Sie Mesos + HDFS + Spark einrichten – janisz

Antwort

0

Spark pflegen Paar cluster modes. Garn, Mesos und Standalone. Sie können mit dem Standalone-Modus beginnen, was bedeutet, dass Sie an Ihrem Cluster-Dateisystem arbeiten.

Wenn Sie mit Amazon EC2 arbeiten, können Sie sich auf die following article beziehen, um Spark-integrierte Skripts zu verwenden, die Spark-Cluster automatisch laden.

Wenn Sie auf einer On-Prem-Umgebung ausgeführt werden, die Art und Weise im Standalone-Modus auszuführen ist wie folgt: ein Funken

-Start einen eigenständigen Master wird auszudrucken

./sbin/start-master.sh 

-Der Meister : // HOST: PORT-URL für sich selbst. Für jeden Arbeiter (Maschine) auf dem Cluster die URL im folgenden Befehl verwenden:

./sbin/start-slave.sh <master-spark-URL> 

-Um zu bestätigen, dass der Arbeitnehmer zum Cluster hinzugefügt wurde, können Sie auf die folgende URL verweisen: http://localhost:8080 auf Ihrem Master Maschine und rufen Sie Spark UI, die mehr Informationen über den Cluster und seine Arbeiter zeigt.

Es gibt viele weitere Parameter zu spielen. Für weitere Informationen, siehe bitte documentation

Hoffe, ich habe es geschafft zu helfen! :)