Ich bin auf der Suche nach vollständigen Wikipedia-Text für mein College-Projekt herunterladen. Muss ich meine eigene Spinne schreiben, um diese herunterzuladen oder gibt es einen öffentlichen Datensatz von Wikipedia, der online verfügbar ist?Wikipedia Text herunterladen
Um nur einen Überblick über mein Projekt zu geben, möchte ich die interessanten Wörter einiger Artikel herausfinden, die mich interessieren. Aber um diese interessanten Wörter zu finden, plane ich, tf/idf für die Berechnung der Termhäufigkeit zu verwenden jedes Wort und wählen Sie diejenigen mit hoher Frequenz. Aber um die tf zu berechnen, muss ich die gesamten Vorkommen in ganz Wikipedia kennen.
Wie kann das gemacht werden?
Obwohl ich Ihre Frage und einfach beantwortet haben, dass unter Hinweis darauf, dass Google Ihre Antworten hat, ist verpönt, wenn Sie googelten 'vollständigen Wikipedia-Text herunterladen' Der Link ist der erste Treffer. Ich sage das in der Hoffnung, dass es helfen wird, Ihr Google-Fu zu verbessern. –
@Sam Holder Ich möchte nur bestätigen. Ist dies der richtige Link zum Herunterladen aller Seiten -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean
Ja, das scheint alle aktuellen Seiten zu sein, und ist wahrscheinlich was Sie wollen, obwohl ohne genau zu wissen, es ist schwer zu sagen –