2016-05-26 8 views
0

Ich möchte versuchen, Word2vec zu Vietnamase Sprache zu implementieren, aber ich bin verwirrt über die vortrainierten Vektoren, wenn ich versuchte, in der englischen Sprache zu verwenden, verwende ich Google News-Vektoren-negative300.bin.gz (etwa 3,4 GB) für vortrainierte Vektoren und es funktioniert gut. wenn ich mit vietnam sprache mache sollte ich die daten vortrainierten vektoren selbst machen ?? wie einen vortrainiert Vektoren wie Google News-Vektoren-negative300.bin.gz zu machen, dann versuche ich Google News-Vektoren-negative300.bin in Textformat das Ergebnis als konvertieren:Wie macht man einen vortrainierten Vektoren für andere Sprache (Word2Vec)?

0,001129 -0,000896 0,000319 0,001534 0,001106 -0,001404 -0,000031 -0,000420 -0,000576 0,001076 -0,001022 -0,000618 -0,000755 0,001404 -0,001640 -0,000633 0,001633 -0,001007 -0,001266 0,000652 -0,000416 -0,001076 0,001526 -0,000275 0,000140 0,001572 0,001358 -0,000832 -0,001404 0,001579 0,000254 -0.000732 -0.000105 -0.001167 0.001579

Wie ändert man einen Buchstaben oder ein Wort in das obige Formular ??

Antwort

0

sollten Sie Modell mit Ihren Sprachdaten trainieren. Es ist möglich mit der Verwendung von "decode" und "encode" -Funktion in Python. Vor dem Zugmodell mit deinen Sätzen solltest du deine Sätze Wörter einbinden.

for sentence in sentences: 
    for word in sentence: 
     word = word.decode('utf-8') 

nach diesem Modell Zug mit jeder Sprache von "utf-8" unterstützt werden kann :)