2013-07-02 22 views
9

Mit Wikipedia-Dumps möchte ich eine Hierarchie für seine Kategorien erstellen. Ich habe den Hauptdump (enwiki-latest-pages-articles) und die Kategorie SQL dump (enwiki-latest-category) heruntergeladen. Aber ich kann die Hierarchieinformationen nicht finden.Wikipedia Kategorie Hierarchie von Dumps

Zum Beispiel enthält der Dump der SQL-Kategorien Einträge für jede Kategorie, aber ich kann nichts darüber finden, wie sie miteinander in Beziehung stehen.

Der andere Dump (neueste-Seiten-Artikel) sagt die übergeordneten Kategorien für jede Seite, aber in einer ungeordneten Weise. Es gibt nur alle Eltern an.

Ich habe die Kategoriehierarchie von wikiprep gesehen (http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/) ... Wie ist das aufgebaut? Wikiprep listet die Kategorie ID auf, nicht ihren Namen. Gibt es eine Möglichkeit, den Namen für jede ID zu erhalten?

Antwort

10

Die Kategorie-Hierarchie Informationen in MediaWiki ist in der categorylinks table gespeichert, so dass Sie die categorylinks Dump benötigen.

Sie werden auch den page (nicht pages-articles) Dump für die Seiten-ID zur Titelzuordnung benötigen.

+0

Danke! Ich habe die ganze Nacht danach gesucht! Wenn du "Seite" sagst, meinst du diese eine enwiki-neuste Seite.sql.gz? (http://dumps.wikimedia.org/enwiki/latest/) – fersarr

+1

@fersarr Ja, das ist der eine. – svick

+0

Entschuldigung dafür, dass ich mich wieder mit diesem Thema beschäftige, ich arbeite daran, aber ich bekomme nicht das, was ich als Ergebnis erwartet habe. Ist das richtig? Von categoryLinks bekomme ich die pageId und ihre Kategorien. Einige Seiten sind auch Kategorien. Wenn Sie also alle Links verknüpfen, sollte dies zu einer Hierarchie von Kategorien führen. – fersarr