Ich mache einige NLP, wo ich herausfinden, wenn Patienten mit Multipler Sklerose diagnostiziert wurden.Gibt es eine Möglichkeit, NLTK zu sagen, dass ein bestimmtes Wort kein Eigenname ist, sondern ein Nomen?
Ich möchte nltk verwenden, um mir zu sagen, dass das Substantiv eines Satzes Multiple Sklerose war. Das Problem ist, dass Ärzte häufig auf Multiple Sklerose als MS verweisen, die nltk als Eigenname aufnimmt.
Zum Beispiel, dieser Satz, "Seine MS wurde 1999 diagnostiziert." Ist markiert als: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]
MS sollte ein Nomen sein hier. Irgendwelche Vorschläge?
Named Entity Anerkennung ist ein schwieriges Problem. Versuchen Sie [dies] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –
Sie verwenden derzeit die Standard-POS-Tagger. In diesem Fall müssen Sie Ihr eigenes Korpus mit den korrekten POS-Werten trainieren. Wenn Sie nicht als Fallback-Mechanismus arbeiten, sollten Sie nach dem Standard-Corpus-POS-Tagger-Modell einen anderen Fehlerkorrektur-Layer haben. – Renien
Was ist die Quelle der Daten? Ist es möglich zu teilen? Gibt es eine Liste von Wörtern/Phrasen/Abkürzungen, die Sie immer als Substantive haben möchten? Haben Sie Daten markiert? Was ist die Domäne der Daten? Was ist der ultimative Zweck der POS-Kennzeichnung? Die Beantwortung dieser Fragen würde die Lösungen für Ihre Fragen eingrenzen. – alvas