Ich habe einen Glove mit ~ 5M spanischen Artikeln ausgebildet. Ich weiß, wie man diesen Glove in Gensim lädt und wie ein Word2vec-Modell benutzt. Jetzt bin ich mit dem Problem der Themenmodellierung und der Extraktion von Schlagwörtern aus Nachrichtenartikeln (auch auf Spanisch) konfrontiert, also fragte ich mich, wie ich das trainierte Modell dazu verwenden könnte.Wie kann ich ein geschultes GloVe-/word2vec-Modell verwenden, um Schlüsselwörter aus Artikeln zu extrahieren?
Wie könnte ich es tun?
Aber wie soll ich einen Text mit Word2Vec darstellen? word2vec steht für Wörter, nicht für Text. Habe ich recht? – hipoglucido
Das hängt von Ihrem Problem ab. Da Text alle (oder meistens) Wörter sind, sollten Sie einige (oder alle) Wörter in Ihrem Text auswählen, um eine word2vec-Darstellung zu erstellen. Das kann so einfach sein wie eine Summe der Vektoren, die du von word2vec erhältst. Sie können diesen Vektor (zum Beispiel) mit denen vergleichen, die von Ihren markierten Themen abgeleitet wurden, indem Sie Kosinusähnlichkeit oder andere Metrik verwenden. – ozborn
Aber wenn ich sie nur summiere, werden sich die Vektoren längerer Texte potentiell von kürzeren Vektoren unterscheiden, selbst wenn sie ähnliche Wörter verwenden und ihre Bedeutung die gleiche ist. Sollte ich nicht eine andere Transformation verwenden? Was ist mit dem Mittelwert aus allen Wörtern im Text? Danke vielmals. – hipoglucido