2016-06-03 13 views
-2

Ich habe ungefähr 100000 Dokumente unterschiedlicher Wortlänge. Ich habe auch ein Word2vec-Modell auf dem gesamten Korpus trainiert. Nun, wie komme ich von diesen Wortvektoren, um für jedes einzelne Dokument Merkmale derselben Dimension zu erstellen?Wie erstellt man Dokumentfunktionen aus Wort-Vektoren?

Ich bin mir einiger Techniken bewusst, wie dies getan werden kann, man soll einfachen Durchschnitt von Vektoren aller Wörter im Dokument nehmen, und ein anderer ist k-means Clustering.

Können Sie eine andere Möglichkeit vorschlagen, diese Aufgabe auszuführen?

Antwort