Maximale Anzahl von Apache Nutch-Worker-Instanzen

Wie viele Apache Nutch-Crawler-Instanzen können maximal gleichzeitig mit einem Master-Knoten ausgeführt werden?Maximale Anzahl von Apache Nutch-Worker-Instanzen

Quelle

2015-12-17 Sanaz Marshall

Nicht klar, was Sie mit Crawler-Instanzen meinen. Wenn Sie das Crawl-Skript mehrmals parallel ausführen möchten, z. Sie haben unterschiedliche Crawls mit separaten Konfigurationen, Seeds usw. ... und konkurrieren dann um Slots auf dem Hadoop-Cluster. Es wird dann darauf herunterkochen, wie viele Mapper-/Reducer-Slots auf Ihrem Cluster verfügbar sind, was wiederum davon abhängt, wie viele Slaves vorhanden sind.

Die gleichzeitige Verarbeitung mehrerer Nutch-Crawls kann sehr knifflig und ineffizient sein. Stattdessen sollten Sie Ihre Architektur neu überdenken, damit alle logischen Crawler als eine einzige physische Crawler ausgeführt werden können, oder sehen Sie sich StormCrawler an, die dafür besser geeignet sein sollte.

Quelle

2015-12-24 08:51:00

Maximale Anzahl von Apache Nutch-Worker-Instanzen

Antwort

Verwandte Themen