7

Ich möchte Lemmatisierung anwenden, um die Flexionsformen von Wörtern zu reduzieren. Ich weiß, dass WordNet für Englisch eine solche Funktionalität bietet, aber ich bin auch daran interessiert, Lemmatisierung für niederländische, französische, spanische und italienische Wörter anzuwenden. Gibt es einen vertrauenswürdigen und bestätigten Weg, dies zu tun? Vielen Dank!Lemmatisierung von nicht-englischen Wörtern?

+0

Siehe auch https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA

+0

Die Antworten auf die zitierte Frage diskutieren Französisch Stemmers aber nicht Lemmatizers – duhaime

+0

Ich muss für das gleiche suchen, aber für der Italiener –

Antwort

8

Versuchen Sie pattern Bibliothek von CLIPS, sie haben Unterstützung für Deutsch, Englisch, Spanisch, Französisch und Italienisch. Genau das, was du brauchst: http://www.clips.ua.ac.be/pattern

Leider funktioniert es nur mit Python 2, es gibt noch keine Unterstützung für Python3.

+0

Danke, das ist perfekt! Genau wonach ich gesucht habe! – Crista23

-1

Die Textacy-Bibliothek http://textacy.readthedocs.io/en/latest/api_reference.html bietet die wesentlichen Werkzeuge zum Erstellen einer Tasche von Wörtern oder Tütchen mit Begriffen mit Lemmatisierung als Teil der Optionen enthalten. Ich habe es mit Spanisch versucht und funktioniert ganz in Ordnung.

doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True) 

Die Bibliothek überprüft automatisch die Sprache, in die Sie schreiben und lemmatieren entsprechend. Sie können es jedoch auch hier angeben.

import textacy 
text = 'Los gatos y los perros juegan juntos en el patio de su casa' 
doc = textacy.Doc(text, lang='es') 
print(doc.to_bag_of_words(normalize='lemma', as_strings=True)) 

Sie erhalten eine Ausgabe wie die folgende erhalten { 'perro': 1, 'y': 1, 'gato': 1, 'jugar': 1, 'casar': 1, ‚Los ': 1,' Terrasse ': 1}

Die Bibliothek erkennt einige der Wörter gut, jedoch wurden die Lemmas nicht perfekt erkannt. Hoffe das hilft.

+0

Es wäre nützlich, wenn Sie ein wenig mehr erklären würden, wie die Bibliothek für nicht-englische Sprachen verwendet werden kann und einige Beispielausgaben zeigen. – vpekar