Wie man ganze Wikipedia kriecht?

Ich habe WebSphinx-Anwendung ausprobiert.Wie man ganze Wikipedia kriecht?

Ich weiß, wenn ich wikipedia.org als Start-URL setzen, wird es nicht weiter crawlen.

Wie also tatsächlich die gesamte Wikipedia zu crawlen? Kann jemand einige Richtlinien geben? Muss ich diese URLs gezielt suchen und mehrere Start-URLs angeben?

Jeder hat Vorschläge für eine gute Website mit dem Tutorial usgn WebSphinx API?

Quelle

2010-02-22 Mr CooL

Wenn Ihr Ziel es ist, alle Wikipedia zu crawlen, sollten Sie sich die verfügbaren Datenbankabbilder ansehen. Siehe http://download.wikimedia.org/.

Quelle

2010-02-22 20:02:59 Andrew

+26

+1. Das Crawlen von Wikipedia über HTTP ist unhöflich und belastet die Server sehr. –

@GregHewgill, das ist eine ziemlich ansehnliche Aussage. Es hängt wirklich davon ab, wie schnell Sie die Site crawlen, ob Sie die robots.txt-Direktiven beachten und was Sie als "viel zusätzliche Last" bezeichnen würden. Laut Wikipedia "Friendly, Low-Speed-Bots sind herzlich willkommen auf Artikelseiten, aber nicht auf dynamisch generierten Seiten." - http://en.wikipedia.org/robots.txt Crawler sind normalerweise nicht für das Parsen von Wikipedia-spezifischen XML-Dokumenten gedacht, die mit Wiki-Markup gefüllt sind. Daher scheint es albern, ein separates System zu erstellen, um veraltete XML-Dumps nur für wikipedia.com zu parsen . –

Ich verstehe es nicht: Wenn freundliches Crawling erlaubt ist, warum verbieten sie so viele Crawler in der robots.txt? – TechNyquist

Sie müssen wahrscheinlich mit einem zufälligen Artikel beginnen und dann alle Artikel crawlen, die Sie von diesem Anfang erhalten können. Wenn dieser Suchbaum erschöpft ist, beginnen Sie mit einem neuen zufälligen Artikel. Sie können Ihre Suchanfragen mit Begriffen versehen, von denen Sie glauben, dass sie zu den meisten Artikeln führen, oder Sie beginnen mit dem Artikel auf der ersten Seite.

Noch eine Frage: Warum hat WebSphinx nicht weiter gecrawlt? Blockiert wikipedia Bots, die sich als "WebSphinx" identifizieren?

Quelle

2010-02-22 20:03:34 FrustratedWithFormsDesigner

ich bin nicht sicher, aber vielleicht WEbSphinx der Useragent wird von wikipedia robots.txt

http://en.wikipedia.org/robots.txt

Quelle

2010-02-22 20:05:47

zur Verwendung der Wikipedia-Datenbank-Dump Zusätzlich blockiert oben erwähnt, können Sie Wikipedias API zum Ausführen von Abfragen verwenden, wie zum als 100 zufällige Artikel abrufen.

http://www.mediawiki.org/wiki/API:Query_-Lists#random.2F_rn

Quelle

2010-02-23 00:50:13 Gabe

Ich glaube, Sie nicht die erforderliche Konfiguration für die wählen können. Wechseln Sie zu Erweitert, crawlen Sie die Subdomain, und begrenzen Sie die Seitengröße und -zeit.

jedoch WebSphinx kann wahrscheinlich nicht kriechen die ganze Wikipedia, es verlangsamt sich mit größeren Daten und stoppt schließlich in der Nähe von 200 MB Speicher verwendet wird. Ich empfehle Ihnen Nutch, Heritrix und Crawler4j.

Quelle

2012-04-21 13:04:59

-1

Werfen Sie einen Blick auf dbpedia, eine strukturierte Version von Wikipedia.

Quelle

2014-08-19 00:01:10

Antwort

Verwandte Themen