Ich verarbeite eine große Menge an Textdaten in sklearn. Zuerst muss ich den Textkontext (Wortzählungen) vektorisieren und dann einen TfidfTransformer durchführen. Ich habe den folgenden Code, der die Ausgabe von CountVectorizer nicht an die Eingabe von TfidfTransformer zu nehmen scheint.Ein Übergang von CountVectorizer zu TfidfTransformer in sklearn
TEXT = [data[i].values()[3] for i in range(len(data))]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
vectorizer = CountVectorizer(min_df=0.01,max_df = 2.5, lowercase = False, stop_words = 'english')
X = vectorizer(TEXT)
transformer = TfidfTransformer(X)
X = transformer.fit_transform()
Wie ich diesen Code ausführen, erhalte ich diesen Fehler:
Traceback (most recent call last):
File "nlpQ2.py", line 27, in <module>
X = vectorizer(TEXT)
TypeError: 'CountVectorizer' object is not callable
Ich dachte, ich den Text vektorisiert hatte und jetzt ist es in einer Matrix - gibt es einen Übergangsschritt, die ich verpasst habe? Vielen Dank!!
Vielen Dank. Ich muss es sicherlich lesen. – achimneyswallow
Gern geschehen. Sie sollten sich aber in Pipelines umsehen - das ist vielleicht die Grundidee von sklearn. –