Ich habe Web Crawling mit Apache Nutch ..... Ich habe für zwei Runden geholt. Es erzeugte eine Durchforstungs-DB, die 21 URLs als abgerufenen Status und 537 URL als nicht abgerufenen Status enthielt. Ich möchte den Status aller Links in crawldb aktualisieren, wie aus irgendeinem Grund abgerufen. Gibt es eine Möglichkeit, den Status zu aktualisieren?Wie aktualisiert man den Abrufstatus in crawldb in Apache nutch?
0
A
Antwort
0
Ich fand eine Antwort auf meine Frage und wollte mit euch allen teilen. Nach dem Abrufen von zwei Runden habe ich die db mit dem Befehl 'bin/nutch updateb crawl/crawldb $ s2' aktualisiert. Dann wird die Datenbank mit neuen URLs aktualisiert und hat den Status 'nicht abgeholt'. Aber wenn 'bin/nutch updatedb crawl/crawldb $ s2 -noAdditions', fügt es keine neuen URLs zur db hinzu und macht bereits existierenden URLs als 'geholt'.