2010-04-21 11 views
18

Ich bin auf der Suche nach vollständigen Wikipedia-Text für mein College-Projekt herunterladen. Muss ich meine eigene Spinne schreiben, um diese herunterzuladen oder gibt es einen öffentlichen Datensatz von Wikipedia, der online verfügbar ist?Wikipedia Text herunterladen

Um nur einen Überblick über mein Projekt zu geben, möchte ich die interessanten Wörter einiger Artikel herausfinden, die mich interessieren. Aber um diese interessanten Wörter zu finden, plane ich, tf/idf für die Berechnung der Termhäufigkeit zu verwenden jedes Wort und wählen Sie diejenigen mit hoher Frequenz. Aber um die tf zu berechnen, muss ich die gesamten Vorkommen in ganz Wikipedia kennen.

Wie kann das gemacht werden?

+0

Obwohl ich Ihre Frage und einfach beantwortet haben, dass unter Hinweis darauf, dass Google Ihre Antworten hat, ist verpönt, wenn Sie googelten 'vollständigen Wikipedia-Text herunterladen' Der Link ist der erste Treffer. Ich sage das in der Hoffnung, dass es helfen wird, Ihr Google-Fu zu verbessern. –

+0

@Sam Holder Ich möchte nur bestätigen. Ist dies der richtige Link zum Herunterladen aller Seiten -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

+0

Ja, das scheint alle aktuellen Seiten zu sein, und ist wahrscheinlich was Sie wollen, obwohl ohne genau zu wissen, es ist schwer zu sagen –

Antwort

20

von wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database

Wikipedia bietet kostenlose Kopien aller verfügbaren Inhalte an interessierte Nutzer. Diese Datenbanken können für die Spiegelung, den persönlichen Gebrauch, informelle Sicherungen, Offline-Nutzung oder Datenbankabfragen verwendet werden (z. B. für Wikipedia: Wartung). Der gesamte Textinhalt ist unter der Creative Commons Attribution-ShareAlike 3.0 Lizenz (CC-BY-SA) und der GNU Free Documentation License (GFDL) mehrfach lizenziert. Bilder und andere Dateien sind unter verschiedenen Bedingungen verfügbar, wie auf ihren Beschreibungsseiten beschrieben. Hinweise zur Einhaltung dieser Lizenzen finden Sie unter Wikipedia: Copyrights.

Scheint, dass Sie auch Glück haben. Von der Müllkippe Abschnitt:

Ab dem 12. März 2010 die neuesten Müllhalde der englischsprachigen Wikipedia kann bei http://download.wikimedia.org/enwiki/20100130/ finden Dies ist die erste komplette Dump der englischsprachigen Wikipedia seit 2008 erstellt wurden Bitte beachten Sie, dass neuere Dumps (wie der 20100312 Dump) unvollständig sind.

So sind die Daten nur 9 Tage alt :)

+4

Ich upvoted Ihre Antwort über die anderen, einfach weil Sie mehr als nur einen Link zu veröffentlichen. – UnkwnTech

+0

Ich schneide und klebte auch :) –

+0

Ich möchte nur bestätigen. Ist dies der richtige Link, um alle Seiten herunterzuladen -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

3

die Größe des Dump In Anbetracht, würden Sie wahrscheinlich besser mit der Wortfrequenz in der englischen Sprache bedient werden, oder die verwenden MediaWiki API, um Seiten zufällig zu durchsuchen (oder die am häufigsten aufgerufenen Seiten). Es gibt Frameworks zum Erstellen von Bots basierend auf dieser API (in Ruby, C#, ...), die Ihnen helfen können.

9

Wenn Sie einen Text-Version benötigen, kein Mediawiki XML, dann können Sie ihn hier herunterladen: http://kopiwiki.dsd.sztaki.hu/

+0

Großartig! Sehr gute Arbeit. Bitte fügen Sie weitere Sprachen hinzu :-) –

+3

Link ist kaputt. – tmnol

+0

Neuer Link hier: https: //dsd.sztaki.hu/produkte/kopiwiki. – thuzhf