2008-09-15 17 views

Antwort

0

Der beste Weg, um Inhalte zu kategorisieren, sei es Text oder Multimedia ist ein taxonomy zu verwenden. Die meisten der bekannten CMS haben Unterstützung für Taxonomie eingebaut. Drupal hat eine der besten Unterstützung für taxonomy unter den verschiedenen CMS da draußen.

+2

Ich glaube nicht, dass ich das den besten Weg nennen würde. Ich würde es * einen Weg * nennen. –

2

Ich möchte Sie ermutigen, an den Textklassifikation Bibliotheken mit dem Natural Language Toolkit gebündelt aussehen . Auch wenn Sie mit Python nicht vertraut sind, denke ich, dass Sie die API eher intuitiv finden. Es gibt viele gute Beispiele in der NLTK Book und die Leute auf der Mailing-Liste sind auch sehr hilfreich.

0

Einfachste Möglichkeit zur Text Kategorisierung ist die Verwendung bag-of-words Darstellung. Wörter/n-Gramm von Wörtern in jedem Dokument könnten als Merkmale verwendet werden. Damit können Sie jedes Dokument als Vektor im metrischen Raum darstellen. Anschließend können Sie clustering anwenden, um Dokumente zu gruppieren, die inhaltlich ähnlich sind. Zum Beispiel können Sie k-Means-Clustering mit diesen Vektoren verwenden, um lexikalisch ähnliche Dokumente zusammenzufassen.

Python-basierte Text Mining Workbench, NTLK ist hervorragend zum Experimentieren Aufgaben wie diese schnell (in der Regel ist Python ziemlich gut für die Arbeit mit Text). Sie können es nützlich finden.