Ich bin nicht in der Lage, die ganze Website zu crawlen, Scrapy kriecht nur an der Oberfläche, ich möchte tiefer kriechen. Googeln für die letzten 5-6 Stunden und keine Hilfe. Mein Code unten:Scrapy - Crawl ganze Website
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
Bitte helfen Sie !!!!
Danke, Abhiram
Ich habe versucht, Ihren Code gegen stackoverflow - meine IP wurde verboten. Es funktioniert definitiv! :) – alecxe
@Alexander - Klingt ermutigend für mich, mehr zu debuggen :) :) ... Sorry auf dem IP-Verbot Kumpel! –
Versuchen Sie wirklich, example.com zu crawlen? Du weißt, das ist keine echte Website. –