1

Ich versuchte mich in Sentimentanalyse in Python 3 und verwendete den TDF-IDF-Vektorisierer mit dem Bag-of-Word-Modell, um ein Dokument zu vektorisieren.Dokumentvektorisierungsdarstellung in Python

Also, für jeden, der damit vertraut ist, ist es ziemlich offensichtlich, dass die resultierende Matrixdarstellung spärlich ist.

Hier ist ein Ausschnitt meines Codes. Erstens, die Dokumente.

tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the driest damn wings ever!',0),('An extensive menu provides lots of options for breakfast.',1),('The flair bartenders are absolutely amazing!',1),('My first visit to Hiro was a delight!',1),('Poor service, the waiter made me feel like I was stupid every time he came to the table.',0),('Loved this place.',1),('This restaurant has great food',1), 
     ('Honeslty it did not taste THAT fresh :(',0),('Would not go back.',0), 
     ('I was shocked because no signs indicate cash only.',0), 
     ('Waitress was a little slow in service.',0), 
     ('did not like at all',0),('The food, amazing.',1), 
     ('The burger is good beef, cooked just right.',1), 
     ('They have horrible attitudes towards customers, and talk down to each one when customers do not enjoy their food.',0), 
     ('The cocktails are all handmade and delicious.',1),('This restaurant has terrible food',0), 
     ('Both of the egg rolls were fantastic.',1),('The WORST EXPERIENCE EVER.',0), 
     ('My friend loved the salmon tartar.',1),('Which are small and not worth the price.',0), 
     ('This is the place where I first had pho and it was amazing!!',1), 
     ('Horrible - do not waste your time and money.',0),('Seriously flavorful delights, folks.',1), 
     ('I loved the bacon wrapped dates.',1),('I dressed up to be treated so rudely!',0), 
     ('We literally sat there for 20 minutes with no one asking to take our order.',0), 
     ('you can watch them preparing the delicious food! :)',1),('In the summer, you can dine in a charming outdoor patio - so very delightful.',1)] 

X_train, y_train = zip(*tweets) 

Und der folgende Code zum Vektorisieren der Dokumente.

tfidfvec = TfidfVectorizer(lowercase=True) 
vectorized = tfidfvec.fit_transform(X_train) 

print(vectorized) 

Wenn ich vectorized drucken, spielt es keine Ausgabe eine normale Matrix. Stattdessen: enter image description here

Wenn ich nicht falsch liege, muss dies eine dünne Matrixdarstellung sein. Ich bin jedoch nicht in der Lage, sein Format zu verstehen, und was jeder Begriff bedeutet.

Außerdem gibt es 30 Dokumente. Also, das erklärt die 0-29 in der ersten Spalte. Wenn das der Trend ist, dann denke ich, dass die zweite Spalte der Index der Wörter ist, und der letzte Wert ist es tf-idf? Es ist mir gerade aufgefallen, während ich meine Frage eingegeben habe, aber korrigiere mich bitte, wenn ich falsch liege.

Könnte jemand mit Erfahrung dabei helfen, es besser zu verstehen?

Antwort

1

Ja, technisch repräsentieren die ersten beiden Tupel die Zeilenspaltenposition und die dritte Spalte den Wert in dieser Position. Es zeigt also grundsätzlich die Position und Werte der Werte ungleich Null.