solch einen Datenrahmen, einschließlich der Position und entsprechende Überprüfung Texte Gegeben:Wie das Wort im Datenrahmen zu Integer-ID mit Python-Pandas und Gensim?
item_id review_text
B2JLCNJF16 i was attracted to this...
B0009VEM4U great snippers...
Ich mag review_text
das oben 5000
häufigste Wort auf der Karte, so sollte der resultierende Datenrahmen wie:
item_id review_text
B2JLCNJF16 1 2 3 4 5...
B0009VEM4U 6... #as the word "snippers" is out of the top 5000 most frequent word
Oder ein Beutel-of-Wort Vektor stark bevorzugt wird:
item_id review_text
B2JLCNJF16 [1,1,1,1,1....]
B0009VEM4U [0,0,0,0,0,1....]
Wie kann ich das tun? Danke vielmals!
EDIT: Ich habe versucht @ayhan Antwort. Jetzt haben sich geändert ich erfolgreich die Überprüfung von Text in eine doc2bow
Form:
item_id review_text
B2JLCNJF16 [(123,2),(130,3),(159,1)...]
B0009VEM4U [(3,2),(110,2),(121,5)...]
es das Wort von ID bezeichnet 123
hat 2
mal in diesem Dokument aufgetreten. Jetzt möchte ich es auf einen Vektor wie übertragen:
[0,0,0,.....,2,0,0,0,....,3,0,0,0,......1...]
#123rd 130th 159th
Tun Sie, wie man das macht? Vielen Dank im Voraus!
Vielen Dank für Ihre Antwort! Deine Lösung ist ziemlich schön! Aber kannst du mir bitte sagen, wie man das 'doc2bow'-Ergebnis in Vektor umwandelt? Vielen Dank! –
Entschuldigung, ich lasse diese Frage für eine Woche und hole sie jetzt wieder ab. Ich habe Ihren Code versucht, aber die Länge ist immer noch unterschiedlich und alle Werte sind binär: '0' oder' 1'. Hast du eine Ahnung davon? –
Danke für Ihre Antwort! Es ist wirklich cool! Aber ich frage mich, ob der Index von 'df2' gleich ist mit' df'? –