Antwort

2

Sind die Sätze in der gleichen Sprache? Sie können mit der vortrainierten word2vec-Datei beginnen, die Sie von Google herunterladen können, wenn sie Englisch ist. Achten Sie darauf, wie die Zugdatei erstellt wurde, ob die Stemming angewendet wurde usw. Es ist auch etwas wichtig, aus welchem ​​Korpus sie erzeugt wurde; Sie würden andere Ergebnisse erhalten, wenn diese aus Newsgroups stammen oder wenn sie aus dem Internet oder aus formelleren Texten extrahiert wurden.

Word2Vec kodiert grundsätzlich jedes Wort in einen höherdimensionalen Vektorraum. Dies ist in der Regel 200.300 oder 500 Dimensionen groß. Nachdem es trainiert wurde, sind die "Test" -Sätze im Grunde Sack von Wörtern und müssen nicht in irgendeiner Reihenfolge sein.

Sie würden dann für jedes Wort in der Tasche der Wörter den entsprechenden word2vec Vektor herausfinden. Dann können Sie Features erstellen, indem Sie die Vektoren mitteln, wobei Sie das "Minimum" und das "Maximum" verwenden. Wenn Sie Text vergleichen, sollten Sie die Kosinusähnlichkeit zwischen Vektoren berechnen. Verwenden Sie diese Funktionen dann in einer SVM.