2016-04-20 25 views
3

Ich habe eine Menge von 25.000+ URLs, die ich kratzen muss. Ich sehe ständig, dass nach ungefähr 22.000 URLs die Crawling-Rate drastisch sinkt.Crawling verlangsamt sich drastisch gegen Ende

in diesen Log-Linien Werfen Sie einen Blick eine Perspektive zu bekommen:

2016-04-18 00:14:06 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:15:06 [scrapy] INFO: Crawled 5324 pages (at 5324 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:16:06 [scrapy] INFO: Crawled 9475 pages (at 4151 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:17:06 [scrapy] INFO: Crawled 14416 pages (at 4941 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:18:07 [scrapy] INFO: Crawled 20575 pages (at 6159 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:19:06 [scrapy] INFO: Crawled 22036 pages (at 1461 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:20:06 [scrapy] INFO: Crawled 22106 pages (at 70 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:21:06 [scrapy] INFO: Crawled 22146 pages (at 40 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:22:06 [scrapy] INFO: Crawled 22189 pages (at 43 pages/min), scraped 0 items (at 0 items/min) 
2016-04-18 00:23:06 [scrapy] INFO: Crawled 22229 pages (at 40 pages/min), scraped 0 items (at 0 items/min) 

Here're

meine Einstellungen
# -*- coding: utf-8 -*- 

BOT_NAME = 'crawler' 

SPIDER_MODULES = ['crawler.spiders'] 
NEWSPIDER_MODULE = 'crawler.spiders' 

CONCURRENT_REQUESTS = 10 
REACTOR_THREADPOOL_MAXSIZE = 100 
LOG_LEVEL = 'INFO' 
COOKIES_ENABLED = False 
RETRY_ENABLED = False 
DOWNLOAD_TIMEOUT = 15 
DNSCACHE_ENABLED = True 
DNSCACHE_SIZE = 1024000 
DNS_TIMEOUT = 10 
DOWNLOAD_MAXSIZE = 1024000 # 10 MB 
DOWNLOAD_WARNSIZE = 819200 # 8 MB 
REDIRECT_MAX_TIMES = 3 
METAREFRESH_MAXDELAY = 10 
ROBOTSTXT_OBEY = True 
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36' #Chrome 41 

DEPTH_PRIORITY = 1 
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' 
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue' 

#DOWNLOAD_DELAY = 1 
#AUTOTHROTTLE_ENABLED = True 
HTTPCACHE_ENABLED = True 
HTTPCACHE_EXPIRATION_SECS = 604800 # 7 days 
COMPRESSION_ENABLED = True 

DOWNLOADER_MIDDLEWARES = { 
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, 
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300, 
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350, 
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400, 
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550, 
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580, 
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590, 
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600, 
    'crawler.middlewares.RandomizeProxies': 740, 
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 
    'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830, 
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850, 
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900, 
} 

PROXY_LIST = '/etc/scrapyd/proxy_list.txt' 
  • Speicher und CPU-Verbrauch ist weniger als 10%
  • tcptrack zeigt keine ungewöhnliche Netzwerkaktivität
  • iostat zeigt vernachlässigbare Festplatte i/o \

Was kann ich sehen, um dies zu debuggen?

+0

Haben Sie Ihre Protokollebene zu ändern versucht, @DuckPuncher Dank zu sehen, wenn etwas Unerwartetes geschieht -

würde ich dies ohne Kommentar Gespräch über nicht herausgefunden haben? – DuckPuncher

+4

Waren diese URLs auf derselben Website? Vielleicht hast du nach 22.000 Treffern durch diese/diese Seite (n) Rate-limited? Versuchen Sie, von mehreren verschiedenen IP-Adressen zu scrappen und zu sehen, ob es nicht schneller ist. Versuchen Sie, diese Websites zu bitten, Ihre IP-Adresse für das Scraping auf die weiße Liste zu setzen. (Ich nehme an, dass Ihr eigener ISP oder das Netzwerk selbst Sie nicht preislimitiert). – smci

+0

Sind die TCP-Verbindungen nach ihrer Verwendung geschlossen? – ozOli

Antwort

0

Es stellte sich heraus, dass das Problem mit einer bestimmten Domäne war, die einen Rückstand verursachte. Die URL-Warteschlange würde voll sein und auf Antworten von diesen Domains warten. Da nur eine Anfrage pro IP/Domain erlaubt ist, wurden diese einzeln bearbeitet.

Ich meldete mich bei meinen Proxies und tailed ihre kombinierte Ausgabe und es war klar als Tag. und @smci