Ich crawle ein paar Websites mit Apache Nutch, aber ich habe festgestellt, dass bei jeder Iteration die 95% der Websites, die es durchsucht, bereits in der Datenbank sind. Ich verwende den Skriptcrawl im bin-Verzeichnis mit Stapeln von 50.000 URLs.Apache Nutch vermeiden Refetching
Ich fragte mich, ob ich das Refetching der URLs vermeiden konnte, die ich bereits in der Datenbank habe.
Der Wert ist auf den Standardwert eingestellt, so wie Sie sagen, sollte es alle 30 Tage abgerufen werden. Ich habe nur eine begrenzte Liste von 3000 Websites, von denen es abholen kann. Könnte es möglicherweise meinen Crawling beeinflussen? – rodi
@rodi nicht sicher, ich verstehe, was das Problem ist. Wenn Sie die URLs, die Sie bereits abgerufen haben, nicht erneut abrufen möchten, ändern Sie die db.fetch.interval-Konfigurationen wie beschrieben. Ich habe die Antwort mit einer möglichen Erklärung aktualisiert. Kannst du erklären, was du meinst? –