Ich habe eine Reihe von Start-Urls, wie unten:Wie übergeben Sie die Start-URL in Scrappy-Regeln Link-Extraktor?
start_urls = [www.example.com,www.example.com/ca,wwww.example.com/ap]
Jetzt habe ich geschrieben Code für innen jeweils start_urls wie unten vorkommenden alle Urls Extrahieren:
rules = (Rule(
LinkExtractor(
allow_domains = ('example.com'),
attrs = ('href'),
tags = ('a'),
deny =(),
deny_extensions =(),
unique = True,
),
callback = 'parseHtml', follow = True),)
In der parseHtml
Funktion I Ich analysiere den Inhalt der Links.
Jetzt in den oben genannten Websites habe ich gemeinsame Links auftreten. Für diese gemeinsamen Links muss ich eine Art von Identifikation basierend auf der start_urls
haben. Wie erreiche ich das mit scrappy?