2016-05-10 20 views

Antwort

2

Derzeit ist es am besten, einen Stemmer anzuwenden, bevor Sie Dokumente importieren. Wenn Sie mit der Java-Programmierung zufrieden sind, wäre es eine Alternative, eine PorterStemmer Pipe-Klasse zu erstellen, die eine TokenSequence modifiziert.

Wenn Sie jedoch ein Themenmodell für englischen Text trainieren, ist Stemming mit ziemlicher Sicherheit nicht sinnvoll. Das Modell kann verwandte Wörter normalerweise einfach durch Kontext gruppieren, und Stemming erzeugt oft merkwürdig aussehende Nicht-Ganz-Wörter, die für den Benutzer schwierig zu interpretieren sind.

+0

Danke für die Antwort. – osmjit

+0

Wie ist es möglich, stemming auf mehrere Dateien in einem Ordner anzuwenden, bevor das Dokument mit Python oder einem anderen Tool importiert wird. Bitte vorschlagen – osmjit