Ich habe einen Code geschrieben, um die Stimmungsanalyse zu machen, deshalb benutze ich zwei verschiedene Wörterbücher, in denen die Sätze taggen als negativ oder positiv sind. Mein Code-Schnipsel Sieht so weit wie folgt aus:Wie Stoppwörter in diesem Code zu elimieren?
def format_sentence(sentence):
return {word: True for word in word_tokenize(satz) }
pos_data = []
with open('Positiv.txt') as f:
for line in f:
pos_data.append([format_sentence(line), 'pos'])
neg_data = []
with open('Negativ.txt') as f:
for line in f:
neg_data.append([format_sentence(line), 'neg'])
training_data = pos_data[:3] + neg_data[:3]
test_data = pos_data[3:] + neg_data[3:]
model = NaiveBayesClassifier.train(training_data)
Jetzt habe ich den Code möchte alle Stoppwörter aus den Sätzen im Wörterbuch elimate aber ich weiß nicht, wie das in meinen Code zu implementieren, wie ich ein Anfänger bin in Python Programmierung. Ich wäre sehr dankbar, wenn mir jemand helfen könnte, mit diesem
Was ist ein "Stoppwort", und wie definieren Sie "Beseitigung"? – th3an0maly
Stoppwörter sind Wörter wie 'und', 'aber' und so weiter. Ich möchte, dass der Classifier diese Wörter nicht in die Trainingsdaten einfügt. – Tommy5
Mögliches Duplikat von [Stopword removal with NLTK] (http://stackoverflow.com/questions/19130512/stopword-removal-with-nltk) – alvas