Wie bekomme ich eine Teilmenge (sagen wir 100MB) von Wikipedia-Seiten? Ich habe festgestellt, dass Sie den gesamten Datensatz als XML erhalten können, aber es ist eher wie 1 oder 2 Gigs; Ich brauche nicht viel.Wie bekomme ich eine Untergruppe von Wikipedia-Seiten?
Ich möchte mit der Implementierung eines Map-Reduce-Algorithmus experimentieren.
Having said that, wenn ich nur 100 MB Textdaten probe von irgendwo finden könnte, wäre das auch gut. Z.B. Die Stack Overflow-Datenbank, wenn sie verfügbar ist, hätte möglicherweise eine gute Größe. Ich bin offen für Vorschläge.
Edit: Alle, die nicht Torrents sind? Ich kann die bei der Arbeit nicht bekommen.
Schade, dass es ein Strom ist, kann ich nicht bei der Arbeit bekommen. – Chris
Hier ist ein Link zum neuesten Download: http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris
reden wir hier über die gleiche DB? – Leo