durchführen Ich möchte Stemming mit Porter-Algorithmus auf das Korpus als einzelne Dateien in InputDirectory für das Mallet-Modell gespeichert anwenden. Kann jemand helfen, wie es durchgeführt werden kann?Wie Stemming während Mallet für Themenmodellierung
1
A
Antwort
2
Derzeit ist es am besten, einen Stemmer anzuwenden, bevor Sie Dokumente importieren. Wenn Sie mit der Java-Programmierung zufrieden sind, wäre es eine Alternative, eine PorterStemmer Pipe-Klasse zu erstellen, die eine TokenSequence modifiziert.
Wenn Sie jedoch ein Themenmodell für englischen Text trainieren, ist Stemming mit ziemlicher Sicherheit nicht sinnvoll. Das Modell kann verwandte Wörter normalerweise einfach durch Kontext gruppieren, und Stemming erzeugt oft merkwürdig aussehende Nicht-Ganz-Wörter, die für den Benutzer schwierig zu interpretieren sind.
Danke für die Antwort. – osmjit
Wie ist es möglich, stemming auf mehrere Dateien in einem Ordner anzuwenden, bevor das Dokument mit Python oder einem anderen Tool importiert wird. Bitte vorschlagen – osmjit