Ich benutze InitSpider
und lesen Sie eine benutzerdefinierte json
Konfiguration innerhalb der def __init__(self, *a, **kw):
Methode.Scrapy: überschreiben DEPTH_LIMIT Variable basierend auf Wert gelesen von benutzerdefinierten Konfig
Die JSON-Konfigurationsdatei enthält eine Direktive, mit der ich die Crawling-Tiefe steuern kann. Ich kann diese Konfigurationsdatei bereits erfolgreich lesen und den Wert extrahieren. Das Hauptproblem ist, wie man scrapy sagt, diesen Wert zu verwenden.
Hinweis: Ich möchte nicht ein Befehlszeilenargument wie -s DEPTH_LIMIT=3
verwenden, ich möchte es tatsächlich von meiner benutzerdefinierten Konfiguration analysieren.
wo ich die Middleware-Klasse speichern und welchen Dateinamen soll ich ihm geben? – cytopia
Ich löste das obige Problem. Es funktioniert jetzt, aber es scheint, dass Seiten mit einer Tiefe> max_depth immer noch gecrawlt (heruntergeladen), aber nicht verarbeitet werden. Ist es auch möglich, sie nicht herunterzuladen, um Zeit und Bandbreite zu sparen? – cytopia