Ich möchte Daten aus Wikipedia für eine Aufgabe in Hadoop laden. Ich habe einige Links gefunden: http://www.kiwix.org/wiki/Main_Page#Wikipedia_files, https://archive.org/details/enwiki-20160113. Aber ich bin nicht sicher, in welchem Format es sein wird und wie man damit arbeitet. Also, Frage ist, weiß jemand, ob es möglich ist, Wikipedia in einer oder mehreren TXT-Dateien herunterzuladen?Download Wiki in einer oder mehreren Dateien
0
A
Antwort
1
Nun können Sie die neueste Download abgeschlossen (ein weiterer Dump ist im Gang bei 20.161.101) Dumps von wikipedia Inhalt hier: https://dumps.wikimedia.org/enwiki/20161020/ Hinweis Ich glaube nicht, dies schließt Medien-Dateien selbst, und dass dieses Beispiel ist nur die englische Seite - die anderen Seiten sind auch dort verfügbar.