1

Ich versuche die Anzahl der Likes auf einem Post in einem sozialen Netzwerk zu prognostizieren, basierend sowohl auf numerischen Features als auch auf Textfeatures. Jetzt habe ich Datenframe mit erforderlichen Funktionen, aber ich weiß nicht, was ich mit Posts Textdaten tun soll. Soll ich es vektorisieren/etw sonst noch machen, um eine passende Zugmatrix zu bekommen? Ich werde LinearSVC von sklearn zur Analyse verwenden.Wie kombiniere ich Text und numerische Merkmale im Trainingssatz für maschinelles Lernen?

my dataframe looks this way

+0

Welche MacNine Lernmethode möchten Sie verwenden? SVMs können eine gute Wahl sein, da Sie sich mit Textfunktionen beschäftigen. –

+0

Entschuldigung, ich habe nicht erwähnt, ja, ich werde SVM verwenden. Linearer SVC. – dbulgakov

Antwort

0

Es gibt viele verschiedene Möglichkeiten, wie Sie Ihre Text-Funktionen in numerisch denjenigen zu verwandeln.

Eine der gebräuchlichsten Methoden ist der Bag of Words Ansatz. Hier transformieren Sie Ihren Text in ein Array mit den Vorkommen jedes Wortes.

Wenn Sie scikit-learn verwenden, empfehle ich Ihnen, ihre Text Feature extraction User Guide zu lesen.

Sehen Sie sich auch die NLTK toolkit für komplexere Möglichkeiten zur Verarbeitung Ihrer Textdaten.

+0

Vielen Dank für Ihre Antwort. Ich verstehe, dass ich einen Fehler der Wörter brauche. Ich habe die Textdaten der Beiträge bereits in Wörter aufgeteilt und eine Vorverarbeitung durchgeführt. Ich habe keine Ahnung, was ich als nächstes tun soll, wie ich es in eine Matrix für zukünftige SVM-Analysen einbinden kann. – dbulgakov

+0

Hab deine Idee und finde dumme Fehler in meinem Code. Vielen Dank für Ihre Antwort:) – dbulgakov