Wenn ich nutch 1.10
mit folgendem Befehl ausführen, unter der Annahme, dass TestCrawl2
vorher nicht existierte und muss erstellt werden, ...nutch 1.10 Eingangspfad existiert nicht/LinkDB/Strom
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
Ich erhalte einen Fehler auf Indizierung, die Ansprüche:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
Das Linkdb-Verzeichnis existiert, aber nicht das 'aktuelle' Verzeichnis. Das Verzeichnis gehört root, daher sollte es keine Berechtigungsprobleme geben. Da der Prozess von einem Fehler beendet wurde, enthält das Verzeichnis linkdb die Dateien .locked
und .. locked.crc
. Wenn ich den Befehl erneut ausführen, bewirken diese Sperrdateien, dass er an derselben Stelle beendet wird. Löschen TestCrawl2
Verzeichnis, spülen, wiederholen.
Beachten Sie, dass die nutch- und solr-installationen selbst zuvor problemlos in einer TestCrawl
Instanz ausgeführt wurden. Es ist gerade jetzt, dass ich ein neues versuche, dass ich Probleme habe. Irgendwelche Vorschläge zur Behebung dieses Problems?