2016-04-02 5 views
0

Ich habe gerade begonnen, Spark Apache zu verwenden. Ich habe es auf meinem lokalen Computer getestet (Windows 10, Intel Core i5, 8 GB RAM) und alles hat funktioniert. Als ich versuchte, einen Cluster manuell zu starten, bekam ich einen Fehler wie in der unten angehängten Bild: enter image description hereFehler beim manuellen Starten eines Clusters in Spark

Info von log (C: \ Funken \ logs \ Funke - org.apache.spark.deploy.master.Master -1-XXXXXX.out:

Spark-Befehl: C: \ Programme \ Java \ jdk1.8.0_72 \ bin \ java -cp C: \ Zünd-/conf \; C: \ Zünd-/lib/funke-assembly-1.6.0-hadoop2.6.0.jar; C: Spark \ lib \ datanucleus-api-jdo-3.2.6.jar; C: \ Spark \ lib \ datanucleus-core-3.2.10.jar ; C: \ Spark \ lib \ datanucleus-rdbms-3.2.9.jar -Xms1g -Xmx1g org.apache.spark.deploy.master.Master --ip XXXXXX --port 7077 --webui-port 8080

verwende ich diese Quellen dieses Problem zu beheben, aber keinen Erfolg:
Spark Standalone Mode
How to Setup Local Standalone Spark Node
Setup a Apache Spark cluster in your single standalone machine

Danke für jedes Feedback.

+0

Können Sie die Protokolle zur Verfügung stellen? – PinoSan

+0

zu meinem Beitrag hinzugefügt. – Hawk360

+0

Sie sollten weitere Details zu Fehlermeldungen angeben. Sie sollten auch in Ihrer Frage genauer sein. Sie können mit einer vollständigen Kopie der Protokolle beginnen. Bis jetzt ist es so, als ob du sagst, dass meine App nicht funktioniert und ich habe keine Ahnung warum. Ich kann dir sonst nicht helfen. – PinoSan

Antwort

1

Ich denke, du bist leicht durcheinander. Wenn Spark auf einem Windows-Computer ausgeführt wird, ist es sinnvoll, entweder den Remote-Master zu verwenden oder ihn lokal auszuführen. In beiden Fällen - verwenden Sie bin\spark-shell.cmd (oder einen anderen bin/*.cmd). Sie sollten nur Befehle ausführen, die mit .cmd auf Windows-Maschine enden. Wenn Sie start-master.sh ausführen, was Sie sagen - möchte ich diesen Computer als Ressourcenmanager eines Spark-Clusters verwenden, damit andere Spark-Clients eine Verbindung zu ihm herstellen und Abfragen ausführen können. Dies ist wahrscheinlich nicht, was Sie wollen. Wenn Sie local[*] tun, verwenden Sie bereits alle lokalen Ressourcen, es gibt keinen Grund, "Master" zu starten. Wenn Sie mehr Ressourcen benötigen - starten Sie einen Remote-Cluster (zum Beispiel EMR) und verbinden Sie sich dann mit ihm bin\spark-shell.cmd --master AMAZON.IP:7077

+0

Danke @avloss für dein Feedback. EMR ist eine Gebührenoption. Haben Sie eine andere Alternative ohne zusätzliche Kosten für Testzwecke? Ich frage mich immer noch, ob ich einen eigenständigen Cluster (ein Master und 4 Slaves auf einem einzelnen Rechner) unter Windows erstellen kann, wie es in diesem Spark Tutorial für Linux vorgestellt wird ([link] (http://mbonaci.github.io/mbo Funken /))? – Hawk360

+0

Nun, Sie können - aber Sie müssten etwas wie [VirtualBox] (https://www.virtualbox.org/) verwenden, um es zum Laufen zu bringen. Dann hol dir einen 'Ubuntu'-imange [hier] (https://www.virtualbox.org/wiki/Linux_Downloads) - und folge seinen Schritten. Aber noch einmal - ich kann keinen wirklichen Punkt dafür sehen, da Ihr Spark langsamer arbeitet (möglicherweise viel langsamer). Aber wenn das für Sie eher eine Übung ist, dann würde ich sagen, 'VirtualBox' ist definitiv der Weg zu gehen, da ich bezweifle, dass irgendjemand ohnehin Produktionscluster auf einer Windows-Maschine laufen lässt. – avloss