Derzeit verwende ich 'Lucene' und 'Elasticsearch', und habe nächstes Problem. Ich brauche stemmed Form oder Lemma für diminutive Wort. Zum Beispiel:Diminutive Wörter stemming/Lemmatisierung
- Hündchen -> Hund
- kitty -> cat
usw.
Aber ich nächste Ergebnisse erhalten:
- Hündchen -> doggi
- kitty -> kitti
Gibt es eine Möglichkeit (nicht wichtig bereit Bibliothek zu verwenden, jeden Algorithmus, Ansatz etc.) root/ursprüngliche Wortform für diminutive Wortformen zu bekommen?
Zielsprache: Russisch. Zum Beispiel:
- собачка -> собака
- кошечка -> кошка
Vielen Dank im Voraus!
Welche Art von Kette haben Sie für englische Stemming verwendet? Ich wäre überrascht, wenn Sie das mit 'PorterStemFilter' gemacht hätten. – mindas
Du kannst (und solltest) nicht * cat * aus * kitty * mit Stemming oder Lemmatisierung bekommen: "cat" ist weder das Lemma noch der Stamm von "kitty". –