2016-06-07 3 views
0

Ich habe eine Reihe von Start-Urls, wie unten:Wie übergeben Sie die Start-URL in Scrappy-Regeln Link-Extraktor?

start_urls = [www.example.com,www.example.com/ca,wwww.example.com/ap] 

Jetzt habe ich geschrieben Code für innen jeweils start_urls wie unten vorkommenden alle Urls Extrahieren:

rules = (Rule(
    LinkExtractor(
     allow_domains = ('example.com'), 
     attrs = ('href'), 
     tags = ('a'), 
     deny =(), 
     deny_extensions =(), 
     unique = True, 
    ), 
    callback = 'parseHtml', follow = True),) 

In der parseHtml Funktion I Ich analysiere den Inhalt der Links.

Jetzt in den oben genannten Websites habe ich gemeinsame Links auftreten. Für diese gemeinsamen Links muss ich eine Art von Identifikation basierend auf der start_urls haben. Wie erreiche ich das mit scrappy?

Antwort

0
  1. Sie konnten nicht die CrawlSpider verwenden und übergeben Sie die START_URL Informationen selbst von start_requests durch alle Rückrufe

  2. Sie könnten eine Spider Middleware erstellen start_requests zu handhaben, das gleiche zu tun, aber ohne es direkt auf die Spinne zu tun , können Sie ein ähnliches Verhalten finden here