Ich möchte nur bestimmte Domains auf Nutch crawlen. Dazu stelle ich die db.ignore.external.links
zu wahr wie es in diesem FAQ linkWie verhindert man das Crawlen externer Links mit Apache Nutch?
gesagt wurde das Problem nutch Start ist nur Links in der Seed-Liste zu kriechen. Zum Beispiel, wenn ich "nutch.apache.org" in seed.txt lege, findet es nur dieselbe URL (nutch.apache.org).
Ich bekomme das Ergebnis durch Ausführen von Crawl-Skript mit 200 Tiefe. Und es ist mit einem Zyklus beendet und erzeugt den Ausgang darunter.
Wie kann ich dieses Problem lösen?
Ich bin mit Nutch 1,11
Generator: starting at 2016-04-05 22:36:16
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
Mit freundlichen Grüßen
Ja, ich bin mit Crawling-Skript mit 200 Tiefen. Wenn ich die URL-Filter-Ergebnisse bearbeiten, sind die gleichen Ergebnisse wie zuvor. –
Wenn Sie das Crawl-Skript erneut ausführen, rate ich dazu, Ihren crawldb-Ordner zu löschen und dann erneut auszuführen. – AVINASH
und stellen Sie sicher, dass Ihre Seed-URL-Seite andere Links enthält, in die der Crawler hineinkriechen kann – AVINASH