2016-03-22 5 views
0

Rohdaten:Support Vector Machines - Vorhersage der Popularität von Artikeln - Was mache ich falsch?

Artikel Inhalt und Titel. 10000 Artikel

Features: (ich sie aus den Daten extrahiert)

Anzahl der Wörter des Titels

Anzahl der Wörter des Artikels

Anzahl der Facebook-Likes

Erscheinungszeitraum: Wochenende oder nicht

Zunächst möchte ich sagen, dass ich ML sehr neu bin.

Ich versuche, die Daten zu verwenden, um ein Modell mit SVM zu erstellen. Dieses Modell wird vorhersagen, ob ein Artikel wahrscheinlich beliebt ist oder nicht. Ich nahm an, ein Artikel ist beliebt, wenn seine Anzahl von FB Likes größer als 2000 ist.

Ich erstellte eine 5D-Karte (4 Dimension für die 4 Funktionen und 1 für die binäre Popularität Informationen) mit den Trainingsdaten. Jeder Artikel und seine Features haben einen Punkt im 5D-Raum.

Ich versuche, diese 5D-Karte mit SVM zu verwenden, damit es einen optimalen Rand erstellt.

Dann werde ich diesen Rand verwenden, um Popularität mit Testdaten vorherzusagen.

Wenn es um die Implementierung geht, bin ich sehr fest.

Mache ich etwas falsch? Wie sollte ich SVM mit diesem Problem verwenden?

Jede Hilfe wird geschätzt. Vielen Dank!

+0

Welche Sprache/Software und Kernel verwenden Sie zur Implementierung der SVM? – ode2k

+0

@ ode2k hofft, lineares Polynom und Gaussian als Kernel zu verwenden. Sprache ist Matlab im Moment – user4751640

Antwort

0

Was lässt Sie glauben, dass Ihre Funktionen gut genug sind, um vorherzusagen, ob etwas populär ist? Eine Sache über alle Informationen, die Sie weggeworfen haben (der Inhalt des eigentlichen Dokuments), die fehlenden Informationen (wer ist die Quelle der Veröffentlichung, wie sieht ihr Netzwerk aus), Fragen, die aus Ihren Daten nicht offensichtlich sind (beliebt) mit wem? Verschiedene Gruppen von Menschen mögen verschiedene Dinge mögen/mögen).

Sie müssen

  1. mehr über Maschinelles Lernen Lernen im Allgemeinen.
  2. Erfahren Sie mehr über Feature Engineering, suchen Sie nach früheren Arbeiten, die Menschen mit textbasierten Daten durchgeführt haben (Stimmungsanalyse, Themenmodellierung, Spamfilterung).
  3. Lernen Sie Hypothesen mit Ihren Daten zu erstellen und zu testen. Während in diesem Fall, ist es offensichtlich, dass Sie wahrscheinlich eine Los Fehler machen - aber das ist vor allem, weil dies Anfängerarbeit ist. Diese Fragen werden im Allgemeinen immer problem- und datenabhängig sein, so dass es oft nicht hilfreich ist, allgemeine Informationen bereitzustellen und um Rat zu fragen. Sobald Sie etwas mehr ML lernen, müssen Sie darüber nachdenken, was Ihre Modelle bedeuten - und was ihre Leistung bedeutet. Daraus können Sie eine Hypothese über Ihre Leistung erstellen und diese testen und testen. Basierend auf den Ergebnissen ändern Sie etwas an Ihrem Modell oder Ihren Daten und wiederholen es.
+0

Vielen Dank für die Antwort! Ich denke nicht, dass die Features so gut sind. Ihr allgemeiner Vorschlag ist genau das, was ich versuche zu tun. Ich versuche, die Funktionen mit mehreren ML-Methoden zu verwenden. Dann beobachte die Genauigkeit für jeden einzelnen. Dann versuche zu erklären, warum ich die Ergebnisse bekomme, die mir in den Sinn kommen. Ich bin nicht auf eine gute Vorhersage an diesem Punkt. Ich möchte dieses Problem nur auf "Einführungs" -Ebene "gründlich" bearbeiten. Ich lese viele Projektberichte, aber alle überspringen wichtige Details, vorausgesetzt, ich kenne sie. Was soll ich tun, um meine Hände schnell schmutzig zu machen? – user4751640

+0

"Ich lese viele Projektpapiere, aber sie alle überspringen wichtige Details, wenn ich sie kenne", dann sollten Sie diese Details finden. Schnell und schmutzig ist der falsche Weg (IMHO) zum Lernen. –