2015-12-17 8 views

Antwort

1

Nicht klar, was Sie mit Crawler-Instanzen meinen. Wenn Sie das Crawl-Skript mehrmals parallel ausführen möchten, z. Sie haben unterschiedliche Crawls mit separaten Konfigurationen, Seeds usw. ... und konkurrieren dann um Slots auf dem Hadoop-Cluster. Es wird dann darauf herunterkochen, wie viele Mapper-/Reducer-Slots auf Ihrem Cluster verfügbar sind, was wiederum davon abhängt, wie viele Slaves vorhanden sind.

Die gleichzeitige Verarbeitung mehrerer Nutch-Crawls kann sehr knifflig und ineffizient sein. Stattdessen sollten Sie Ihre Architektur neu überdenken, damit alle logischen Crawler als eine einzige physische Crawler ausgeführt werden können, oder sehen Sie sich StormCrawler an, die dafür besser geeignet sein sollte.