Ich entwickle ein Skript, das die Nachrichten aus dem Nachrichtenarchiv einer bestimmten meetup.com Gruppe extrahiert, von denen ich bin ein Mitglied - http://www.meetup.com/opencoffee/messages/archive/Auto Kategorisierung von Content-
Die Idee ist, dynamisch diese ein hinzufügen Wordpress-Website und erlauben Menschen, Nachrichten zu suchen, Auto-Tag-Nachrichten etc.
Das Problem, das ich habe, ist, wie diese Nachrichten am besten zu kategorisieren. Ich würde alle Gedanken und Ideen begrüßen, wie man das am besten angehen könnte und was die effizienteste Art wäre, dies zu programmieren.
Option 1
Finden sie eine Quelle von Tags nach Themenbereichen wie Finanzen, Technik, Wirtschaft usw. durch die köstliche API und verwandte Tags nach Thema finden: -
http://delicious.com/tag/finance
http://delicious.com/tag/technology
Wenn eine Nachricht diese Tags enthält, wird die Nachricht der entsprechenden Kategorie zugewiesen.
Ich glaube, das könnte funktionieren, aber nicht sicher, die effizienteste Methode zum Scannen der Nachricht für diese Tags.
Option 2
Suche Websites, die in den Kategorien repräsentativ sind ich wie ft.com brauchen, der Ökonom für die Bereiche Finanzen usw., TechCrunch für Technologie etc und dann bestimmen, welche Tags, die von Menschen verwendet werden, um diese Seiten zu markieren, und bestimmen Sie standardmäßig, dass diese Tags die Beziehung der Personen zu diesen Websites und ihrem Content-Stack darstellen.
Option 3
übergeben Sie die Nachricht URL http://semanticproxy.com/ (Teil von Reuter Calais Projekt) oder das Open-Calais API verwenden. Dies habe ich aber ohne großen Erfolg versucht, da die variable inhaltliche Tiefe nicht immer ausreicht, um eine aussagekräftige Taxonomie zurückzugeben. Hier
ist ein Beispiel-Nachricht, die ich durch das calais api analysiert: -
Original Message
http://www.meetup.com/opencoffee/messages/6045615/
Calais Ergebnis
http://www.mashinteractive.com/opencoffee/calais.php
ZUSAMMENFASSUNG
Also das war's. Ich würde gerne alle Gedanken und Ideen über Methoden und Tipps, wie Sie am besten die Nachricht Scannen für Optionen 1 und 2 nähern.
FYI gibt es etwa, 1.700 Nachrichten auf dem neuesten Stand und ich vermute, ich kann 10 Kategorien mit jedem Kategorie wird durch 20 oder 30 Tags definiert.
Wenn jemand helfen möchte, ein Wordpress-Plugin oder eine Klasse dafür zu entwickeln, wäre ich mehr als glücklich, Sie an Bord zu haben. Denken Sie daran, ich bin kein Programmierer, ich bastle nur an den Rändern und tue so, als wäre ich einer.
Vielen Dank im Voraus
Jonathan CEO
Crowd Menschen