2016-04-01 5 views
0

Ich möchte den Inhalt einer Wikipedia-Seite bekommen und dann ein paar lustige Sachen damit machen.Wikipedia-Inhalte analysieren JSON

Die Idee ist, dass ich sie im XML/JSON-Format bekommen möchte und im Moment scheint ich keinen Weg zu finden, es zu tun.

Für den Moment, wo ich weit in immer dies gelungen:

https://en.wikipedia.org/w/api.php?action=query&format=jsonfm&prop=revisions&titles=April_1&rvprop=content&rvcontentformat=text%2Fx-wiki

Bu erhalte ich den Inhalt in XWiki und ich kann es nicht aufgrund der Tatsache zu JSON ändern, dass die Seite nicht unterstützt.

Wie kann ich das XWiki zu einem JSON analysieren oder wie bekomme ich den Inhalt der Seite.

Danke!

+0

Wie würden Sie das XWiki-Format in JSON konvertieren? Wie erwarten Sie diese Ausgabe, wenn Sie sie wirklich in json darstellen könnten? – f1sh

+0

Also wenn wir als Beispiel die 1. April Seite nehmen, würde ich es gerne als einen Baum mit der ersten Ebene von Kindern sehen, die Ereignisse, Geburten, Todesfälle, Feiertage und Beobachtungen sind, Externe Verbindungen und dann werden die Kinder Jahr mit dem sein Event danach oder nur Jahr + Event. –

+1

Das ist nicht wie Wikipedia strukturiert ist. Jede Seite ist einfach Text. Eine Struktur darin ist das Ergebnis des XWiki-Markups. Wenn Sie das in strukturiertes JSON umwandeln möchten, müssen Sie einen Konverter schreiben. – f1sh

Antwort

0

Ja, Sie können den HTML-Parser innerhalb von XWiki Rendering verwenden, um den von Wikipedia generierten HTML-Code zu analysieren. Dies gibt Ihnen einen AST, auf dem Sie tun können, was Sie wollen.

Weitere Informationen finden Sie unter http://rendering.xwiki.org/xwiki/bin/view/Main/WebHome.

Sie müssen nur einen Weg finden, um den Wikipedia-Inhalt in HTML zu erhalten.