Gibt es eine Möglichkeit, die Aufgabe "Nutch Crawl" fortzusetzen, die unerwartet beendet wurde?

java
lucene
web-crawler
nutch

2012-04-07 12 views 0 likes

Ich habe eine Nutch-Crawl-Aufgabe, die einen ganzen Tag lang läuft, bis ich den Prozess durch einen Fehler beendet habe.Gibt es eine Möglichkeit, die Aufgabe "Nutch Crawl" fortzusetzen, die unerwartet beendet wurde?

Ich möchte nicht die Samen neu crawlen (kostet zu viel Zeit), also frage ich mich, ob es einen Weg oder einige Nutch Crawler-Parameter gibt, kann der Crawler diese URLs ignorieren, die bereits gecrawlt wurde.

Vielen Dank!

Quelle

2012-04-07 MrROY

Antwort

Nachdem Sie mit dem Crawlen begonnen haben, wurden möglicherweise einige Segmente im Ausgabeverzeichnis erstellt. Verwenden Sie bin/nutch Befehl und zeigen Sie -dir Option auf das Ausgabeverzeichnis des vorherigen Laufs. Für urlDir Argument, erstellen Sie eine Dummy mit einer einzigen URL (nur für den Weg von Fehler, wenn die Urdir hat keine URL drin.)

Quelle

2012-04-08 03:24:43

Gibt es eine Möglichkeit, die Aufgabe "Nutch Crawl" fortzusetzen, die unerwartet beendet wurde?

Antwort

Verwandte Themen