2015-11-03 7 views
6

Wenn ich nutch 1.10 mit folgendem Befehl ausführen, unter der Annahme, dass TestCrawl2 vorher nicht existierte und muss erstellt werden, ...nutch 1.10 Eingangspfad existiert nicht/LinkDB/Strom

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

Ich erhalte einen Fehler auf Indizierung, die Ansprüche:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current 

Das Linkdb-Verzeichnis existiert, aber nicht das 'aktuelle' Verzeichnis. Das Verzeichnis gehört root, daher sollte es keine Berechtigungsprobleme geben. Da der Prozess von einem Fehler beendet wurde, enthält das Verzeichnis linkdb die Dateien .locked und .. locked.crc. Wenn ich den Befehl erneut ausführen, bewirken diese Sperrdateien, dass er an derselben Stelle beendet wird. Löschen TestCrawl2 Verzeichnis, spülen, wiederholen.

Beachten Sie, dass die nutch- und solr-installationen selbst zuvor problemlos in einer TestCrawl Instanz ausgeführt wurden. Es ist gerade jetzt, dass ich ein neues versuche, dass ich Probleme habe. Irgendwelche Vorschläge zur Behebung dieses Problems?

Antwort

3

Ok, scheint es, als ob ich in eine Version dieses Problem ausgeführt habe:

https://issues.apache.org/jira/browse/NUTCH-2041

, die ein Ergebnis von dem Crawl-Skript meines nutch-site.xml nicht zu sein von Veränderungen bewusst ist ignore_external_links Datei.

ich mehrere Seiten zu kriechen bin versucht und hatte gehofft, mein Leben einfach zu halten durch externe Links zu ignorieren und verlassen regex-urlfilter.txt allein (nur + verwenden.)

Jetzt sieht es aus wie ich haben werde Ändere ignore_external_links zurück auf false und füge einen Regex-Filter für jede meiner URLs hinzu. Hoffentlich kann ich bald eine nutch 1.11 Veröffentlichung bekommen. Es sieht so aus, als ob das dort behoben ist.