2009-08-22 13 views
1

Ich mache ein Projekt in Java, in dem ich eine Wikipedia-Dump-Datei verarbeiten muss. Ich bin auf der Suche nach einer Bibliothek, um Schlüsselwörter in Wikipedia-Artikeln zu extrahieren ... Grundsätzlich möchte ich jede Tag-Seite im Wikipedia-XML-Dump lesen und mit einer Liste von Themen und Kategorien vergleichen und wenn es korrekt ist, sie auswählen und hinzufügen zu meinen Ergebnissen. Ich bin nicht daran interessiert, den Dump zu lesen oder wikipedia-Ergebnisse zu schreiben, nur möchte ich über irgendeine Bibliothek wissen, die mich nach Themen in den Titeln und dem Text eines Wikipedia-Artikels suchen ließ ... Zum Beispiel ... Wenn die Eingabe ist "Hund" Ich möchte die Wikipedia Artikel über Hund und wenn möglich jede Seite unter Hunde Kategorien.Suche nach Themen und extrahieren Schlüsselwörter aus Artikeln in Wikipedia

Es spielt keine Rolle, ob eine Bibliothek für allgemeine Zwecke und nicht für Wikipedia angegeben ist. Ich muss den wikitext als Argument setzen und erhielt eine Liste der Schlüsselwörter, einschließlich Kategorien ... Ich habe einige wikipedia Bibliotheken gefunden, die gut wie Wikipedia-Miner oder die Java Wikipedia Library funktionieren, aber mit dem ersten muss ich mysql installiert haben und ich möchte analysieren der Text, ohne es in einer Datenbank zu speichern.

Jede Art von Hilfe oder Vorschlag wird gut angenommen. :)

Antwort