2010-04-16 5 views

Antwort

14

Check out this page here on Wikipedia - es gibt eine Option, nur ein Archiv mit den Namen der Artikel herunterladen. Hier ist die actual path to the download page:

  • All Titles (gzipped) - 32+ Mb zum Zeitpunkt der Buchung.

Edit:

Sie können feststellen, nicht-englischen Titel in der Liste erscheinen (und einige Obszönitäten - beraten werden) in enwiki-latest-all-titles-in-ns0.gz enthält. Dies liegt daran, dass die meisten Benutzer standardmäßig Inhalte im englischen Hauptwörterbuch erstellen (Sprachcode en). Wenn Sie andere Sprach-Dumps untersuchen, werden Sie feststellen, dass es verschiedene Gruppen von Artikeln gibt.

Lesen auf the main download page, es gibt Hinweise darauf, in der Lage zu sein, die Wikipedia API zu verwenden, um einige Arten von Abfragen auf Wikipedia durchzuführen, aber ich bin mir nicht sicher, dass dies Ihr Problem lösen wird (Taxonomie der Seiten scheint nicht zu bieten eine einfache Möglichkeit, "englischen" Inhalt von "Inhalt auf englischem Wiki" zu unterscheiden.

+0

Dies sind nur die englischen Artikel - verwenden Sie den ersten Link, wenn Sie Artikeltitel (und Abstracts/Inhalt) für andere Sprachen finden möchten. –

+0

Vielen Dank @AJ – Boolean

+0

Ich bemerkte, dass Titel tatsächlich andere Sprachen enthalten. Gibt es eine Möglichkeit, englischsprachige Titel zu bekommen? – Boolean

0

Mir ist keine zentrale Liste von Artikeln bekannt, aber wenn Sie nur eine große Anzahl von ihnen anstatt einer vollständigen Liste benötigen (bedenken Sie, dass eine komplette Liste sowieso immer veraltet ist), dann könnten Sie Stellen Sie wahrscheinlich etwas zusammen mit wget, um rekursiv Links innerhalb von Wikipedia von der Hauptseite aus zu folgen und die URLs zu speichern, die Sie erhalten.

+0

Wenn Sie wirklich diese Art von Ansatz nehmen wollten, könnten Sie durch die Indizes blättern wie [die alphabetische Auflistung] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index) –

+1

Beachten Sie jedoch, dass Wikipedia speziell fragt Wenn Sie diese Art von Ansatz verwenden müssen (was eigentlich nicht notwendig sein sollte), begrenzen Sie die Rate der Seitenzugriffe, um eine Überlastung ihrer Server zu vermeiden. –