2016-07-09 20 views
0

Ich lerne Hadoop, maschinelles Lernen und Funken. Ich habe Cloudera 5.7 Quick Start VM heruntergeladen. Ich habe auch die Beispiele von https://github.com/apache/spark als Zip-Datei heruntergeladen und sie auf die Cloudera-VM kopiert. Ich habe eine Herausforderung, das maschinelle Lernen und alle Beispiele von https://github.com/apache/spark laufen zu lassen. Ich habe versucht, das einfache Wortzählungsbeispiel auszuführen, aber es ist fehlgeschlagen. Hier sind meine Schritte und der Fehler iLaufen Funken Beispiele auf Cloudera VM 5.7 und

[[email protected]] cd/funken Master/examples/src/main/Python/ml [[email protected]] Funken einreichen word2vec_example.py

bekommen

Alle Beispiele, die ich versuche auszuführen, schlagen mit dem folgenden Fehler fehl.

Traceback (jüngste Aufforderung zuletzt): File "/home/cloudera/training/spark-master/examples/src/main/python/ml/word2vec_example.py", Zeile 23, in von pyspark.sql Import SparkSession

Ich habe eine Suche nach der Datei pyspark.sql aber ich konnte nur die folgende Datei finden cd/spark-master finden. -name pyspark.sql ./python/docs/pyspark.sql.rst

auf Bitte raten, wie ich diese Fehler beheben kann, so dass ich dieses Beispiel ausführen, um mein maschinelles Lernen und große Datenmengen zu beschleunigen.

der Code für das Wort zählen Beispiel unter

Katze word2vec_example.py

# 
# Licensed to the Apache Software Foundation (ASF) under one or more 
# contributor license agreements. See the NOTICE file distributed with 
# this work for additional information regarding copyright ownership. 
# The ASF licenses this file to You under the Apache License, Version 2.0 
# (the "License"); you may not use this file except in compliance with 
# the License. You may obtain a copy of the License at 
# 
# http://www.apache.org/licenses/LICENSE-2.0 
# 
# Unless required by applicable law or agreed to in writing, software 
# distributed under the License is distributed on an "AS IS" BASIS, 
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
# See the License for the specific language governing permissions and 
# limitations under the License. 
# 

from __future__ import print_function 

# $example on$ 
from pyspark.ml.feature import Word2Vec 
# $example off$ 
from pyspark.sql import SparkSession 

if __name__ == "__main__": 
    spark = SparkSession\ 
     .builder\ 
     .appName("Word2VecExample")\ 
     .getOrCreate() 

    # $example on$ 
    # Input data: Each row is a bag of words from a sentence or document. 
    documentDF = spark.createDataFrame([ 
     ("Hi I heard about Spark".split(" "),), 
     ("I wish Java could use case classes".split(" "),), 
     ("Logistic regression models are neat".split(" "),) 
    ], ["text"]) 
    # Learn a mapping from words to Vectors. 
    word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result") 
    model = word2Vec.fit(documentDF) 
    result = model.transform(documentDF) 
    for feature in result.select("result").take(3): 
     print(feature) 
    # $example off$ 

    spark.stop() 

Antwort

0

Linie 23: spark = SparkSession\

SparkSession neu ist Spark 2.0 und nur Cloudera Schiffe Spark 1.6 standardmäßig. Sie können entweder die Beispiele von Spark 1.6 oder install Spark 2.0 on Cloudera.

herunterladen