Ich habe WebSphinx-Anwendung ausprobiert.Wie man ganze Wikipedia kriecht?
Ich weiß, wenn ich wikipedia.org als Start-URL setzen, wird es nicht weiter crawlen.
Wie also tatsächlich die gesamte Wikipedia zu crawlen? Kann jemand einige Richtlinien geben? Muss ich diese URLs gezielt suchen und mehrere Start-URLs angeben?
Jeder hat Vorschläge für eine gute Website mit dem Tutorial usgn WebSphinx API?
+1. Das Crawlen von Wikipedia über HTTP ist unhöflich und belastet die Server sehr. –
@GregHewgill, das ist eine ziemlich ansehnliche Aussage. Es hängt wirklich davon ab, wie schnell Sie die Site crawlen, ob Sie die robots.txt-Direktiven beachten und was Sie als "viel zusätzliche Last" bezeichnen würden. Laut Wikipedia "Friendly, Low-Speed-Bots sind herzlich willkommen auf Artikelseiten, aber nicht auf dynamisch generierten Seiten." - http://en.wikipedia.org/robots.txt Crawler sind normalerweise nicht für das Parsen von Wikipedia-spezifischen XML-Dokumenten gedacht, die mit Wiki-Markup gefüllt sind. Daher scheint es albern, ein separates System zu erstellen, um veraltete XML-Dumps nur für wikipedia.com zu parsen . –
Ich verstehe es nicht: Wenn freundliches Crawling erlaubt ist, warum verbieten sie so viele Crawler in der robots.txt? – TechNyquist