Ich muss die Daten aus Tabellen in einem Wiki Dump in einer etwas bequemen Form, z. eine Liste von Listen. Aufgrund des Formats des Dumps sieht es jedoch etwas schwierig aus. Ich bin mir der WikiExtractor bewusst, die nützlich ist, um sauberen Text von einem Speicherauszug zu bekommen, aber sie lässt Tabellen ganz fallen. Gibt es einen Parser, mit dem ich bequem lesbare Tabellen auf dieselbe Weise bekommen könnte?Gibt es eine vorhandene Bibliothek, um Wikpedia-Tabellen von Dump zu analysieren?
0
A
Antwort
0
Ich habe es nicht geschafft, eine gute Möglichkeit zu finden, Wikipedia-Tabellen aus XML-Dumps zu analysieren. Es scheint jedoch einige Wege zu geben, dies unter Verwendung von HTML-Parsern zu tun, z. wikitables Parser. Dies würde eine Menge Scraping erfordern, es sei denn, Sie müssen nur die Tabellen von bestimmten Seiten analysieren. Es scheint jedoch möglich, es offline zu tun, da HTML Wiki Dumps im Begriff sind, wieder aufzunehmen (dumps, phabricator task)
Haben Sie hier überprüft: https://www.mediawiki.org/wiki/API:Main_page –
@joelgoldstick Ich habe mir die Seite [Parser List] angesehen (https://www.mediawiki.org/wiki/Alternative_parsers), und ich habe einige davon untersucht, und ich muss noch diejenige finden, die meinen Bedürfnissen entspricht (XML Dumps, eine kann ich verwenden - Python oder Standalone). Einige von ihnen, z.B. DizzyLogic, sind nicht einmal zugänglich. Deshalb habe ich mich entschieden zu fragen, ob jemand bereits einen der Parser verwendet hat, die die Tabellen ordentlich darstellen können. Die API ruft keine Hilfe mehr auf, da sie nichts mit XML-Dumps zu tun hat. – Vilmar