2009-05-04 12 views
3

Ich entwickle ein Skript, das die Nachrichten aus dem Nachrichtenarchiv einer bestimmten meetup.com Gruppe extrahiert, von denen ich bin ein Mitglied - http://www.meetup.com/opencoffee/messages/archive/Auto Kategorisierung von Content-

Die Idee ist, dynamisch diese ein hinzufügen Wordpress-Website und erlauben Menschen, Nachrichten zu suchen, Auto-Tag-Nachrichten etc.

Das Problem, das ich habe, ist, wie diese Nachrichten am besten zu kategorisieren. Ich würde alle Gedanken und Ideen begrüßen, wie man das am besten angehen könnte und was die effizienteste Art wäre, dies zu programmieren.

Option 1

Finden sie eine Quelle von Tags nach Themenbereichen wie Finanzen, Technik, Wirtschaft usw. durch die köstliche API und verwandte Tags nach Thema finden: -

http://delicious.com/tag/finance

http://delicious.com/tag/technology

Wenn eine Nachricht diese Tags enthält, wird die Nachricht der entsprechenden Kategorie zugewiesen.

Ich glaube, das könnte funktionieren, aber nicht sicher, die effizienteste Methode zum Scannen der Nachricht für diese Tags.

Option 2

Suche Websites, die in den Kategorien repräsentativ sind ich wie ft.com brauchen, der Ökonom für die Bereiche Finanzen usw., TechCrunch für Technologie etc und dann bestimmen, welche Tags, die von Menschen verwendet werden, um diese Seiten zu markieren, und bestimmen Sie standardmäßig, dass diese Tags die Beziehung der Personen zu diesen Websites und ihrem Content-Stack darstellen.

Option 3

übergeben Sie die Nachricht URL http://semanticproxy.com/ (Teil von Reuter Calais Projekt) oder das Open-Calais API verwenden. Dies habe ich aber ohne großen Erfolg versucht, da die variable inhaltliche Tiefe nicht immer ausreicht, um eine aussagekräftige Taxonomie zurückzugeben. Hier

ist ein Beispiel-Nachricht, die ich durch das calais api analysiert: -

Original Message

http://www.meetup.com/opencoffee/messages/6045615/

Calais Ergebnis

http://www.mashinteractive.com/opencoffee/calais.php

ZUSAMMENFASSUNG

Also das war's. Ich würde gerne alle Gedanken und Ideen über Methoden und Tipps, wie Sie am besten die Nachricht Scannen für Optionen 1 und 2 nähern.

FYI gibt es etwa, 1.700 Nachrichten auf dem neuesten Stand und ich vermute, ich kann 10 Kategorien mit jedem Kategorie wird durch 20 oder 30 Tags definiert.

Wenn jemand helfen möchte, ein Wordpress-Plugin oder eine Klasse dafür zu entwickeln, wäre ich mehr als glücklich, Sie an Bord zu haben. Denken Sie daran, ich bin kein Programmierer, ich bastle nur an den Rändern und tue so, als wäre ich einer.

Vielen Dank im Voraus

Jonathan CEO

Crowd Menschen

Antwort

1

Sie möchten Zemanta überprüfen, welche Werkzeuge und Plug-ins (einschließlich Wordpress) für Auto-Tagging Inhalt hat, und auch haben ein Blick auf Common Tag, das ist ein Vokabular für das Ausdrücken von Tags auf Inhalte mit RDFa, einem semantischen Web-Standard derzeit von einigen Suchmaschinen indiziert.