2016-07-13 44 views
0
from deepdist import DeepDist 

from gensim.models.word2vec import Word2Vec 

from pyspark import SparkConf, SparkContext 

conf = (SparkConf() 
    .setAppName("Work2Vec") 
) 

sc = SparkContext(conf=conf) 
corpus = sc.textFile('AllText.txt').map(lambda s: s.split()) 

def gradient(model, sentences): 

    syn0, syn1 = model.syn0.copy(), model.syn1.copy() # previous weights 
    model.train(sentences) 
    return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1} 


def descent(model, update): 

    model.syn0 += update['syn0'] 

    model.syn1 += update['syn1'] 


with DeepDist(Word2Vec(corpus.collect())) as dd: 

    dd.train(corpus, gradient, descent) 

    dd.model.save("Model") 

Bitte helfen Sie mir, ich habe einen 56GB Text und wollen ein word2Vec Modell bauen, aber nur mit GENSIM sehr langsam, so dass ich versuchen deepdist und deren Beispielcode im Web, so frage ich habe gerade jemand diese Art von Fehler gesehenVersuch Deepdict, laufen GENSIM word2vec mit pyspark

der Ausgang, wenn ich dieses Skript ausführen:

script output

+0

Dies ist der Link zum Internet http://deepdist.com/ –

Antwort