2014-06-29 10 views
15

Ich möchte eine Liste aller Titel aller Wikipedia-Artikel erhalten. Ich weiß, dass es zwei Möglichkeiten gibt, Inhalte von einem Wikimedia-Wiki zu erhalten. Einer wäre die API und der andere wäre ein Datenbank-Dump.So erhalten Sie eine Liste der Titel aller Wikipedia-Artikel

Ich würde es vorziehen, den Wiki-Dump nicht herunterzuladen. erstens, weil es riesig ist, zweitens, weil ich keine Erfahrung mit der Abfrage von Datenbanken habe. Das Problem mit der API ist andererseits, dass ich keinen Weg finden konnte, nur eine Liste der Artikeltitel zu erhalten, und selbst wenn es> 4 Mio. Anfragen benötigen würde, die mich wahrscheinlich sowieso von weiteren Anfragen blockieren würden. Also meine Frage ist 1. ob es einen Weg gibt, nur die Titel von Wikipedia-Artikeln über die API zu erhalten und 2. ob es eine Möglichkeit gibt, mehrere Anfragen/Anfragen zu einer zu kombinieren. Oder muss ich eigentlich einen Wikipedia-Dump herunterladen?

+0

Sie könnten die [API Sandbox] (http://en.wikipedia.org/wiki/Special%3aApiSandbox#action=query&prop=extracts&format=json&exintro=&titles=Stack%20Overflow) oder eine tatsächliche [query] (http : //en.wikipedia.org/w/api.php? action = query & list = allpages & format = json) – chridam

Antwort

30

The allpages API module können Sie genau das tun. Sein Limit (wenn Sie aplimit=max setzen) ist 500, also, um alle 4.5M Artikel abzufragen, würden Sie ungefähr 9000 Anforderungen benötigen.

Aber ein Dump ist eine bessere Wahl, weil es viele verschiedene Dumps gibt, einschließlich all-titles-in-ns0, die, wie der Name schon sagt, genau das enthält, was Sie wollen (59 MB gezippter Text).

+1

Super, vielen Dank! Ich war auf der Suche nach genau solch einer Müllhalde, konnte aber keine finden. Ich denke, ein Klick weiter auf der Suche nach einem Dump hätte mich genau zu diesem Download gebracht :) Danke! – Flavio

+0

Das hat uns geholfen. Kannst du den Link einer Seite angeben, die eine Liste aller Dumps enthält? –

+0

@VivekSancheti [Hier ist die Seite mit allen englischen Wikipedia-Dumps vom letzten Monat.] (Https://dumps.wikimedia.org/enwiki/20161020/) – svick