2016-04-29 9 views
-1

Ich bin neu in Weka.Klassifizieren Datensatz (StringToWord) Filter von Weka

Ich habe einen Datensatz (Twitter Daten) über bestimmte Firma .. der Filter, den ich verwendet: Zeichenfolge zu Wort .. und ich ändere die Option wordstokeep = 100, um die Genauigkeit zu verbessern. dann angewendet i Klassifizierer: Kstar 55%, Random 57%, 58% SMO diese nicht, dass die meisten gutes Ergebnis ..

enter image description here

ist es eine Idee, dass mir helfen, es sehr gut zu verbessern> >

+0

Sie können einfach zu wenig Trainingsdaten für eine Vielzahl von Daten det wie Twitter haben. –

Antwort

0

Versuchen Sie zuerst, Ihre Daten vorzuverarbeiten. Twitter-Daten enthalten viel Lärm. Entfernen:

  1. URL
  2. Retweets
  3. Hashtags
  4. Sonderzeichen Eine weitere Sache, die Sie tun können, Verwendung von n-Gramm ist. Probieren Sie verschiedene N-Gramme aus und prüfen Sie, welches am besten zu Ihnen passt. Ich nehme Unigramme + Bigrams.

Ich empfehle auch, naiveBayesMultinomial Classifier verwenden. Es funktioniert am besten mit Text-Klassifizierung und speziell in Sentiment Analysis.Plus ist es auch super schnell. Wenn Sie wollen, dass Code die Daten vorverarbeitet, lassen Sie es mich wissen :)