Ich muss eine Menge Spider (~ 20-50) parallel auf dem gleichen Server laufen. Einige meiner Spinnen sind mehr als zwei Tage in Arbeit und manchmal muss ich eine neue ausführen, bevor alle Prozesse abgeschlossen sind. Wie ich verstehe, bietet diese Möglichkeit Scrapyd (separater Daemon-Prozess) und CrawlerProcess (Klasse von Scrapy). Oder vielleicht Sellerie ist hier besser geeignet? (Ich möchte python3 verwenden) Was sind die besonderen Aspekte jedes Ansatzes und welche ist besser für mein Projekt?Scrapyd oder CrawlerProcess für Parral Parsing
0
A
Antwort
1
Wie in https://github.com/scrapy/scrapyd/issues/143 erwähnt, wird das Scrpyd Python3 unterstützen. Unabhängig davon ist Sellerie eine gute Wahl.
Ich würde [Scrapinghub Dash] (http://doc.scrapinghub.com/dash.html) empfehlen, es wäre gut, es zu versuchen. – eLRuLL
Eine gute Lösung, aber ich muss meinen eigenen Server und DB verwenden. – Rainmaker