Ich versuche NLTK Toolkit zu verwenden, um Ort, Datum und Uhrzeit von Textnachrichten zu extrahieren. Ich habe gerade das Toolkit auf meinem Rechner und ich schrieb diesen schnellen Schnipsel um es zu testen:NLTK für Named Entity Recognition
sentence = "Let's meet tomorrow at 9 pm";
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
ich davon aus, dass es das Datum (morgen) und Zeit (9.00 Uhr) zu identifizieren. Aber überraschenderweise hat es das nicht erkannt. Ich erhalte das folgende Ergebnis, wenn ich meine obigen Code auszuführen:
(S (GPE Let/NNP) 's/POS meet/NN tomorrow/NN at/IN 9/CD pm/NN)
Kann mir jemand helfen, zu verstehen, wenn ich etwas fehlt oder NLTK ist einfach nicht reif genug, richtig Zeit und Datum zu markieren. Vielen Dank!
Eigentlich NLTK bietet Bindungen für Stanfords NERTagger ('von nltk.tag.stanford Import StanfordNERTagger'). Immer noch müssen Sie die Java-Quelle herunterladen, aber es gibt eine Menge Hilfe von dort. – Pithikos