Das Wort2vec ist nur ein Datensatz von Wortvektoren, in den meisten Fällen ist es eine Textdatei, jede Zeile enthält ein "Wort" und seinen Wortvektor, getrennt durch Leerzeichen (oder Tab).
Sie können dieses word2vec in einer beliebigen Programmiersprache trainieren. Laden Sie eine Textdatei sollte kein Problem für Sie sein.
In Bezug auf die Chinesen, würde ich 3 Tools vorschlagen:
1) the Character-enhanced Word Embedding (c++)
Xinxiong Chen Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan. Gemeinsames Lernen von Zeichen- und Worteinbettungen. Die 25. Internationale Konferenz für Künstliche Intelligenz (IJCAI 2015).
bemerken Sie bitte, dass der Ausgang des CWE durch Register getrennt wird (\ t)
2) Fast text by Facebook (c++)
Fasttext auf chinesisches ausbilden könnte, ist es auf dem Charakter baut n-Gramm. In meinem Vortrag:
Aicyber’s System for IALP 2016 Shared Task: Character-enhanced Word Vectors and Boosted Neural Networks
stelle ich die Mindestzeichen n-Gramm bis 1 für Chinesisch.
3) GENSIM (Python)
@Howardyan hatte zeigen Sie den Code für GENSIM verwenden, einschließlich der tokenizer. Bitte beachten Sie, dass die Standard-Trainingsmethode CBOW für Gensim ist. Skip-Gramm kann Ihnen bessere Ergebnisse liefern, hängt von Ihren Daten ab. Und hier ist ein Vergleich auf gensim and Fasttext.
PS: Beide 1) 2) Unterstützung Training der ursprünglichen word2vec.
Das könnte Ihnen helfen: http://www.slideshare.net/radiohead0401/running-word2vec-with-chinese-wikipedia-dump –
Habe das schon gelesen. Es ist gut, aber es ist für Python. Need for java –
Was brauchen Sie für Chinesen genau?Word2vec funktioniert nur mit Wortvektoren oder Zeichenvektoren im Fall von Mandarin ... Sprechen Sie über Parser? Stanford hat eine gute: http://nlp.stanford.edu/projects/chinese-nlp.shtml – tremstat