2014-11-09 1 views
6

Um Amplabs Trainingsübungen auszuführen, habe ich ein Schlüsselpaar unter us-east-1 erstellt, die Trainingsskripts installiert (git clone git://github.com/amplab/training-scripts.git -b ampcamp4) und das env erstellt. Variablen AWS_ACCESS_KEY_ID und AWS_SECRET_ACCESS_KEY gemäß den Anweisungen in http://ampcamp.berkeley.edu/big-data-mini-course/launching-a-bdas-cluster-on-ec2.htmlAufruf von Spark-ec2 aus einer EC2-Instanz: SSH-Verbindung zum Host verweigert

läuft jetzt

./spark-ec2 -i ~/.ssh/myspark.pem -r us-east-1 -k myspark --copy launch try1 

folgende Meldungen erzeugt:

[email protected]:~/projects/spark/training-scripts$ ./spark-ec2 -i ~/.ssh/myspark.pem -r us-east-1 -k myspark --copy launch try1 
Setting up security groups... 
Searching for existing cluster try1... 
Latest Spark AMI: ami-19474270 
Launching instances... 
Launched 5 slaves in us-east-1b, regid = r-0c5e5ee3 
Launched master in us-east-1b, regid = r-316060de 
Waiting for instances to start up... 
Waiting 120 more seconds... 
Copying SSH key /home/johndoe/.ssh/myspark.pem to master... 
ssh: connect to host ec2-54-90-57-174.compute-1.amazonaws.com port 22: Connection refused 
Error connecting to host Command 'ssh -t -o StrictHostKeyChecking=no -i /home/johndoe/.ssh/myspark.pem [email protected] 'mkdir -p ~/.ssh'' returned non-zero exit status 255, sleeping 30 
ssh: connect to host ec2-54-90-57-174.compute-1.amazonaws.com port 22: Connection refused 
Error connecting to host Command 'ssh -t -o StrictHostKeyChecking=no -i /home/johndoe/.ssh/myspark.pem [email protected] 'mkdir -p ~/.ssh'' returned non-zero exit status 255, sleeping 30 
... 
... 
subprocess.CalledProcessError: Command 'ssh -t -o StrictHostKeyChecking=no -i /home/johndoe/.ssh/myspark.pem [email protected] '/root/spark/bin/stop-all.sh'' returned non-zero exit status 127 

wo [email protected] die Instanz Benutzer & Master ist. Ich habe versucht -u ec2-user und -w den ganzen Weg bis zu 600 zu erhöhen, aber den gleichen Fehler zu bekommen.

Ich kann die Master-und Slave-Instanzen in us-east-1, wenn ich mich in der AWS-Konsole anmelden, und ich kann tatsächlich ssh in die Master-Instanz von der 'lokalen' ip-some-instance Shell.

Mein Verständnis ist, dass das Spark-ec2-Skript kümmert sich um die Definition der Master/Slave-Sicherheitsgruppen (welche Ports gehört und so weiter), und ich sollte diese Einstellungen nicht zwicken müssen. Das heißt, Master und Slaves hören alle auf Post 22 (Port:22, Protocol:tcp, Source:0.0.0.0/0 in den Ampcamp3-Slaves/Masters sec. Groups).

Ich bin hier ratlos, und würde alle Hinweise schätzen, bevor ich alle meine R & D Mittel auf EC2-Instanzen ausgeben .... Danke.

Antwort

7

Dies wird höchstwahrscheinlich dadurch verursacht, dass SSH lange Zeit benötigt, um mit den Instanzen zu starten, wodurch die 120-Sekunden-Zeit überschritten wird, bevor die Maschinen angemeldet werden konnten. Sie sollten in der Lage

./spark-ec2 -i ~/.ssh/myspark.pem -r us-east-1 -k myspark --copy launch --resume try1 

(mit der --resume Flagge) weiterhin aus, wo die Dinge aufhörte ohne erneute Einführung neuer Instanzen laufen. Dieses Problem wird in Spark 1.2.0 behoben, wo wir einen neuen Mechanismus haben, der den SSH-Status intelligent überprüft, anstatt auf ein festes Timeout angewiesen zu sein. Wir befassen uns auch mit den Ursachen für die lange SSH-Startverzögerung, indem wir neue AMIs erstellen.

+0

Danke. Ich bekomme immer noch keinen Zugang zum Cluster, vielleicht muss ich länger warten (es ist schon 1,5 Stunden, also nehme ich an, dass noch etwas anderes im Spiel ist). – user2105469

+0

'Ausnahme beim Öffnen der URL http://ec2-54-90-57-174.compute-1.amazonaws.com:8080/json Fehler beim Verbinden mit dem Host Befehl 'ssh -t -o StrictHostKeyChecking = no -i/home/johndoe/.ssh/meinspark.pem [email protected] '/root/spark/bin/stop-all.sh' gab einen Nicht-Null-Exit-Status zurück 127, schlafen 30' – user2105469

+0

Welche Spark-Version verwenden Sie? –