Ich wollte wordnet lemmatizer in python verwenden und ich habe gelernt, dass die Standard-POS-Tag ist NOUN und dass es nicht das richtige Lemma für ein Verb ausgeben, es sei denn, die POS-Tag explizit angegeben ist VERB.wordnet lemmatization und pos tagging in python
Meine Frage ist, was ist der beste Schuss, um die obige Lemmatisierung genau durchzuführen?
Ich habe die Pos-Tagging mit nltk.pos_tag
und ich bin verloren bei der Integration der Baum Bank POS-Tags zu Wordnet-kompatiblen POS-Tags. Bitte helfen
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
Ich bekomme die Ausgabe Tags in NN, JJ, VB, RB. Wie ändere ich diese in Wordnet-kompatible Tags?
Muss ich auch nltk.pos_tag()
mit einem getaggten Korpus trainieren oder kann ich es direkt auf meine Daten auswerten?
erinnern Sie sich auch Satellitenadjektive =) 'ADJ_SAT = 's'' http://wordnet.princeton.edu/wordnet/man/wngloss.7WN.html – alvas
das Pos-Tag für'' es''in '' I liebe es. "' string ist ''PRP''.Die Funktion gibt eine leere Zeichenfolge zurück, die der Lemmatizer nicht akzeptiert, und löst einen 'KeyError' aus. Was kann in diesem Fall getan werden? –
Weiß jemand, wie effizient das bei der Verarbeitung ganzer Dokumente ist? – Ksofiac