2016-05-10 5 views
1

Ich versuche, Spark in AWS mit dem Treiber/Executor-Modell zu verwenden. Es scheint keinen Weg zu geben, den Treiberklassenpfad so zu setzen, dass er das hadoop-aws jar plus das aws-sdk jar verwenden kann, um auf s3 zuzugreifen. Ich möchte meine Job-Gläser von s3 ziehen.Verwenden von s3a zum Abrufen von Spark-Jars im Treiber und Executor

Scheint so, als ob ich entweder alle diese Klassen zum Spark-Assembly-Jar hinzufügen muss, oder ich muss das Spark-Class-Skript ändern, um diese Jars manuell dem Klassenpfad hinzuzufügen?

Gibt es weniger intrusive Methoden, d. H. Irgendeine Möglichkeit, dies nur in Config irgendwo anzugeben?

Ich laufe 1.6.1 und hadoop 2.4, aber ich erwarte, dass ich 2.6 auch verwenden kann (dasselbe Problem).

Antwort

0

nicht sicher, ob ich das richtig verstanden, aber Sie sollten die spark.driver.extraClassPath und/oder die spark.driver.extraLibraryPath Eigenschaft nach dem docs

IMHO einstellen können, dasselbe sollte durch die Angabe der --jars Befehlszeilenoption erreichbar sein bei Verwendung von spark-submit, siehe help output von spark-submit.