Ich arbeite an einer Tasche von Wörtern Projekt und ich möchte Stoppwörter aus der NLTK-Liste der Stoppwörter entfernen. Zum Zeitpunkt, mache ich das:Was ist der richtige Weg NLTK Stoppwörter zu verwenden?
words.difference_update(set(stopwords.words("english")))
(Wörter, um einen Satz alle Wörter im Korpus enthält)
jedoch wenn ich mir den Inhalt stopwords.words("english")
Ich sehe Worte wie: "couldn" und "doesn". Ich nehme an, das sind Wortpräfixe für Wörter wie "könnte nicht" und "tut nicht" und vielleicht andere Wörter.
Also nehme ich an, es gibt eine Möglichkeit zu überprüfen, ob ein Wort in der Stop-Wörter-Liste ist, die ausgeklügelter als reine String-Gleichheit ist, aber ich kann nicht herausfinden, was es ist. Jede Hilfe wird geschätzt.
können Sie auch das ganze Korpus [hier] herunterladen (https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip) und es in Ihrer Freizeit lesen/ändern. Diese [Frage] (https://stackoverflow.com/questions/37701305/where-to-find-an-exhaustiv-list-of-stopwords/37712453#37712453) geht in, wie man die NLTK-Liste außerdem ändert. – patrick