2010-02-22 8 views
5

Ich habe WebSphinx-Anwendung ausprobiert.Wie man ganze Wikipedia kriecht?

Ich weiß, wenn ich wikipedia.org als Start-URL setzen, wird es nicht weiter crawlen.

Wie also tatsächlich die gesamte Wikipedia zu crawlen? Kann jemand einige Richtlinien geben? Muss ich diese URLs gezielt suchen und mehrere Start-URLs angeben?

Jeder hat Vorschläge für eine gute Website mit dem Tutorial usgn WebSphinx API?

Antwort

43

Wenn Ihr Ziel es ist, alle Wikipedia zu crawlen, sollten Sie sich die verfügbaren Datenbankabbilder ansehen. Siehe http://download.wikimedia.org/.

+26

+1. Das Crawlen von Wikipedia über HTTP ist unhöflich und belastet die Server sehr. –

+7

@GregHewgill, das ist eine ziemlich ansehnliche Aussage. Es hängt wirklich davon ab, wie schnell Sie die Site crawlen, ob Sie die robots.txt-Direktiven beachten und was Sie als "viel zusätzliche Last" bezeichnen würden. Laut Wikipedia "Friendly, Low-Speed-Bots sind herzlich willkommen auf Artikelseiten, aber nicht auf dynamisch generierten Seiten." - http://en.wikipedia.org/robots.txt Crawler sind normalerweise nicht für das Parsen von Wikipedia-spezifischen XML-Dokumenten gedacht, die mit Wiki-Markup gefüllt sind. Daher scheint es albern, ein separates System zu erstellen, um veraltete XML-Dumps nur für wikipedia.com zu parsen . –

+0

Ich verstehe es nicht: Wenn freundliches Crawling erlaubt ist, warum verbieten sie so viele Crawler in der robots.txt? – TechNyquist

0

Sie müssen wahrscheinlich mit einem zufälligen Artikel beginnen und dann alle Artikel crawlen, die Sie von diesem Anfang erhalten können. Wenn dieser Suchbaum erschöpft ist, beginnen Sie mit einem neuen zufälligen Artikel. Sie können Ihre Suchanfragen mit Begriffen versehen, von denen Sie glauben, dass sie zu den meisten Artikeln führen, oder Sie beginnen mit dem Artikel auf der ersten Seite.

Noch eine Frage: Warum hat WebSphinx nicht weiter gecrawlt? Blockiert wikipedia Bots, die sich als "WebSphinx" identifizieren?

2

Ich glaube, Sie nicht die erforderliche Konfiguration für die wählen können. Wechseln Sie zu Erweitert, crawlen Sie die Subdomain, und begrenzen Sie die Seitengröße und -zeit.

jedoch WebSphinx kann wahrscheinlich nicht kriechen die ganze Wikipedia, es verlangsamt sich mit größeren Daten und stoppt schließlich in der Nähe von 200 MB Speicher verwendet wird. Ich empfehle Ihnen Nutch, Heritrix und Crawler4j.

-1

Werfen Sie einen Blick auf dbpedia, eine strukturierte Version von Wikipedia.