Ich bin Teil einer Gruppe, die an einem Big-Data-Kurs-Projekt arbeitet, und wir sind in das geraten, was wir als ein Problem für NLP sehen. Derzeit haben wir Gruppen von in JSON als solche formatiert Daten:Natural Language Verarbeitung von Themen
"wine": {
"category": "socializing",
"category_id": 31,
"score": 0.0,
"topic_id": 611
}
"dragons": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 2137
},
"furry-fandom": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 48595
},
"legendarycreatures": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 10523
}
Die Tags werden Themen mit relevanten Informationen verbunden sind (eine Kategorie, die Popularität der Gäste, und eine Kategorie/Thema ID #). Wir haben Kategorien für jedes Thema bereits zugeordnet, seit die API, aus der wir ziehen, sie handhabt. Unser Problem ist jedoch, dass die Kategorien mit 33 nur zu breit sind, um irgendwelche bedeutungsvollen Trends zu identifizieren, und die Themen sind zu spezifisch mit Überlappungen (z. B. Drachen/legendäre Kreaturen) und es gibt zu viele mit ungefähr 22.000.
Hier kommt NLP ins Spiel; Wir wollen eine Art von Super-Themen erstellen, die nicht so breit wie "Kategorie" sind, aber nicht so spezifisch wie die aktuellen Themen. Ein Beispiel, das "Drachen" und "Legandarkreaturen" wieder verwendet, würde sowohl zusammen mit anderen in ein Superthema von "Fantasie" passen.
Ein wenig mehr Hintergrund, wir verwenden Python, um unsere Daten zu erfassen/zu verarbeiten, wir möchten es weiterhin dafür verwenden, und keiner von uns hat praktische Erfahrungen mit NLP.
In diesem Sinne würden wir gerne einige Vorschläge und Hilfe in diesem Bereich des Kampfes haben. Wenn es bessere Wege gibt oder vielleicht mit NLP nicht machbar ist, sind wir offen für sie. Was wir versuchen zu vermeiden, ist jedoch eine Art Tabelle zur Kategorisierung.
TL; DR: Wir versuchen, eine Menge von 22.000 Themen zu geeigneten "Super-Themen" zu kategorisieren, die spezifischer sind als die aktuellen, aber weniger breit als die aktuellen Kategorien. Wir versuchen dies mit NLP zu tun, während wir Python benutzen, wissen aber nicht, wie wir vorgehen sollen und sind auch offen für Vorschläge.
einen Blick auf http://stackoverflow.com/a/22905260/610569 Nehmen – alvas