Ich möchte Lemmatisierung anwenden, um die Flexionsformen von Wörtern zu reduzieren. Ich weiß, dass WordNet für Englisch eine solche Funktionalität bietet, aber ich bin auch daran interessiert, Lemmatisierung für niederländische, französische, spanische und italienische Wörter anzuwenden. Gibt es einen vertrauenswürdigen und bestätigten Weg, dies zu tun? Vielen Dank!Lemmatisierung von nicht-englischen Wörtern?
Antwort
Versuchen Sie pattern
Bibliothek von CLIPS, sie haben Unterstützung für Deutsch, Englisch, Spanisch, Französisch und Italienisch. Genau das, was du brauchst: http://www.clips.ua.ac.be/pattern
Leider funktioniert es nur mit Python 2, es gibt noch keine Unterstützung für Python3.
Danke, das ist perfekt! Genau wonach ich gesucht habe! – Crista23
Die Textacy-Bibliothek http://textacy.readthedocs.io/en/latest/api_reference.html bietet die wesentlichen Werkzeuge zum Erstellen einer Tasche von Wörtern oder Tütchen mit Begriffen mit Lemmatisierung als Teil der Optionen enthalten. Ich habe es mit Spanisch versucht und funktioniert ganz in Ordnung.
doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True)
Die Bibliothek überprüft automatisch die Sprache, in die Sie schreiben und lemmatieren entsprechend. Sie können es jedoch auch hier angeben.
import textacy
text = 'Los gatos y los perros juegan juntos en el patio de su casa'
doc = textacy.Doc(text, lang='es')
print(doc.to_bag_of_words(normalize='lemma', as_strings=True))
Sie erhalten eine Ausgabe wie die folgende erhalten { 'perro': 1, 'y': 1, 'gato': 1, 'jugar': 1, 'casar': 1, ‚Los ': 1,' Terrasse ': 1}
Die Bibliothek erkennt einige der Wörter gut, jedoch wurden die Lemmas nicht perfekt erkannt. Hoffe das hilft.
Es wäre nützlich, wenn Sie ein wenig mehr erklären würden, wie die Bibliothek für nicht-englische Sprachen verwendet werden kann und einige Beispielausgaben zeigen. – vpekar
Siehe auch https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA
Die Antworten auf die zitierte Frage diskutieren Französisch Stemmers aber nicht Lemmatizers – duhaime
Ich muss für das gleiche suchen, aber für der Italiener –