8

Ich habe einige unbeschriftete Microblogging-Beiträge und ich möchte ein Sentiment-Analyse-Modul erstellen.Sentiment-Analyse-Java-Bibliothek

Um dies zu tun habe ich versuchen Stanford library und Alchemy Api Web-Service, aber das Ergebnis ist nicht sehr gut. Fürs Erste möchte ich meinen Klassifikator nicht trainieren.

Also möchte ich vorschlagen, mir einige Bibliotheken oder einige Webdienste darüber. Ich würde eine getestete Bibliothek bevorzugen. Die Sprache dieser Beiträge ist Englisch. Auch die Vorverarbeitung wurde durchgeführt.

P.S.

Die Programmiersprache, die ich benutze, sind Java EE

+0

Fragen, die uns bitten, ** ein Buch, ein Tool, eine Softwarebibliothek, ein Tutorial oder eine andere Offsite-Ressource zu empfehlen oder zu finden, sind off-topic ** für Stack Overflow, da sie dazu neigen, eigensinnige Antworten und Spam zu bekommen. Beschreiben Sie stattdessen das Problem und was bisher unternommen wurde, um es zu lösen. –

+1

P.S. Microblogging-Daten (twitter?) sind normalerweise so beschissen, dass es kein Wunder ist, wenn die Analyse-Tools nicht gut funktionieren. –

+0

@ Anony-Mousse vielleicht hast du Recht. Aber die Frage kann vielleicht in der Kategorie sein: "Wenn Ihre Frage in der Regel ... Software-Tools von Programmierern verwendet wird, dann sind Sie an der richtigen Stelle, um Ihre Frage zu stellen!" Aber wenn meine Frage wirklich außerhalb des Themas ist, möchte ich mich dafür entschuldigen. – Jimmysnn

Antwort

3

Wenn Sie einen guten Sentiment-Analyse-Service wollen, und Sie wollen nicht Ihre eigene Klassifikator trainieren, müssen Sie dafür bezahlen. Es ist jedoch erwähnenswert, dass keine perfekten Werkzeuge in diesem Bereich existieren. Es gibt keine Tools, die 100% Genauigkeit bei der Analyse garantieren.

Nachdem ich das gesagt habe, spielte ich vor ein paar Monaten mit Semantria/Lexalytics. Sie haben ein einfaches Java SDK und eine gute Genauigkeit bei den Sentimentanalyse-Ergebnissen.

+0

Vielen Dank für Ihre Antwort. Ich kenne diese Werkzeuge und ihre Ergebnisse. Aber ich würde gerne ein Werkzeug verwenden, das eine Genauigkeit von 70% -80 bei der Analyse garantiert. Kennen Sie ein kostenloses Tool, weil ich nicht weiß, ob ich das kostenlose Tool für jetzt nutzen kann? – Jimmysnn

+0

Ich glaube nicht, dass es kostenlose Tools gibt, um diesen Job zu erledigen. Vor ein paar Monaten habe ich über diese Tools recherchiert und kann mich nicht daran erinnern, Tools gefunden zu haben, die Ihren Anforderungen entsprechen. Ich glaube, Sie haben hier nur zwei Möglichkeiten. Die erste Wahl ist, dafür zu bezahlen. Die zweite Möglichkeit besteht darin, einen eigenen Algorithmus zu trainieren, z. B. mit Google Predict oder Mahout. – Marlon

+0

Ok danke. Der zweite Schritt besteht darin, meinen Algorithmmus zu trainieren. Fürs Erste muss ich ein Werkzeug benutzen. – Jimmysnn

9

Sentimentanalyse hält nicht mit den gehypten Versprechen Schritt.

Siehe z.B.

der traurige Zustand der Sentiment Analysis
26. Dezember 2013 von Angela Hausman
http://www.hausmanmarketingletter.com/sad-state-sentiment-analysis/

Jüngste Experimente deuten darauf hin, Analysedaten der Stimmung sind weniger genau als ein Münzwurf (Genauigkeit 50%). Das ist wirklich gruselig, wenn Ihre Marke strategische Entscheidungen auf Basis von Sentiment-Analysen trifft.

...

Während die Werkzeuge genau zwischen 60 und 80% der Äußerungen vorhergesagt, wenn neutrale Äußerungen (80% der Äußerungen) entfernt wurden, fiel die Genauigkeit alarmierend.

Mit anderen Worten, jeder betrügt ihre Benchmarks und Überanpassung (zB Tweets haben Tonnen von Duplikaten und in der Nähe von Duplikaten - Retweets - wenn Sie diese schließen, werden Sie die tatsächliche Leistung überzubewerten)

1

LingPipe ist ein kostenloses (sowie kostenpflichtiges) Werkzeug für die Stimmungsanalyse. http://alias-i.com/lingpipe/index.html

Hauptmerkmale sind:

  1. Sentiment Analysis

  2. Named Entity Recognition

  3. Clustering

  4. Thema Klassifizierung

  5. Sprache Identification

etc

+0

Vielen Dank für Ihre Antwort. Aber ich suchte nach einem Werkzeug nur für die Stimmungsanalyse. Außerdem wird es hilfreich sein, anzugeben, ob Sie dieses Tool für einen Microblog-Datensatz (Tweets) ausprobiert haben. – Jimmysnn

+0

Ich arbeite derzeit an Twitter Sentiment Analyse selbst für Filmkritiken. Aber es scheint, dass Stanford NLP ** NICHT ** am besten geeignet ist. Also versuche ich das NLP zu trainieren. BTW die Ergebnisse scheinen negativ mit dem anfänglich ausgebildeten Klassifikator voreingenommen zu sein! Auch Stanford NLP basiert auf "Satz". Wo Tweets mehr als einen Satz enthalten. Außerdem müssen wir die Schreibweisen korrigieren. Pech! –