Wo finde ich eine erschöpfende Liste von Stoppwörtern? Die eine, die ich habe, ist ziemlich kurz und scheint für wissenschaftliche Texte nicht anwendbar zu sein. Ich erstelle lexikalische Ketten, um Schlüsselthemen aus wissenschaftlichen Arbeiten zu extrahieren. Das Problem ist, dass Wörter wie based
, regarding
usw. auch als Stoppwörter betrachtet werden sollten, da sie nicht viel Sinn ergeben.Wo finde ich eine erschöpfende Liste von Stoppwörtern?
1
A
Antwort
1
Sie können an bestehende Stoppwort-Listen auch leicht hinzufügen . Z.B. verwenden Sie den im NLTK Toolkit:
from nltk.corpus import stopwords
und fügen Sie dann, was Sie denken, fehlt:
stopwords = stopwords.words('english')+["based", "regarding"]
Die ursprüngliche NLTK Liste wird here beschrieben.
1
Es ist schwierig, eine erschöpfende Liste von Stoppwörtern zu finden, da ein bestimmtes Wort als Stoppwort in einer bestimmten Domäne betrachtet werden kann, aber in einer anderen Domäne ein wichtiges Wort ist.
Sie einen Blick auf einige Listen von Stoppwörter nehmen könnte:
http://blog.adlegant.com/how-to-install-nltk-corporastopwords/
Vielleicht ist es in diesem Fall wichtiger, nach einem domänenspezifischen Wörterbuch zu suchen? (Ich benutze WordNet) ... Ich bin ein Neuling in NLP – Klue