2015-06-14 11 views
17

installierten Apache-Maven-3.3.3, scala 2.11.6, lief dann:Was muss `SPARK_HOME` eingestellt werden?

$ git clone git://github.com/apache/spark.git -b branch-1.4 
$ cd spark 
$ build/mvn -DskipTests clean package 

Endlich:

$ git clone https://github.com/apache/incubator-zeppelin 
$ cd incubator-zeppelin/ 
$ mvn install -DskipTests 

dann den Server lief:

$ bin/zeppelin-daemon.sh start 

ein einfaches Laufen Notebook beginnend mit %pyspark, habe ich einen Fehler über py4j nicht gefunden. Just hat pip install py4j (ref).

Jetzt bin bekomme ich diesen Fehler:

pyspark is not responding Traceback (most recent call last): 
    File "/tmp/zeppelin_pyspark.py", line 22, in <module> 
    from pyspark.conf import SparkConf 
ImportError: No module named pyspark.conf 

Ich habe versucht, meine SPARK_HOME zu setzen: /spark/python:/spark/python/lib. Keine Änderung.

Antwort

25

Zwei Umgebungsvariablen sind erforderlich:

SPARK_HOME=/spark 
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH 
+0

Perfect, danke. –