Make Scrapy folgen Links und sammeln Daten

Ich versuche, Programm in Scrapy zu schreiben, um Links zu öffnen und Daten von diesem Tag zu sammeln: <p class="attrgroup"></p>.Make Scrapy folgen Links und sammeln Daten

Ich habe es geschafft, dass Scrapy alle Links von der angegebenen URL sammelt, ihnen aber nicht folgt. Jede Hilfe wird sehr geschätzt.

Quelle

2015-05-10 Arkan Kalu

Sie müssen Request Instanzen erhalten für die Verbindungen einen Rückruf und extrahieren den Text des gewünschten p Element in den Rückruf zu folgen, weisen:

# -*- coding: utf-8 -*- 
import scrapy 


# item class included here 
class DmozItem(scrapy.Item): 
    # define the fields for your item here like: 
    link = scrapy.Field() 
    attr = scrapy.Field() 


class DmozSpider(scrapy.Spider): 
    name = "dmoz" 
    allowed_domains = ["craigslist.org"] 
    start_urls = [ 
    "http://chicago.craigslist.org/search/emd?" 
    ] 

    BASE_URL = 'http://chicago.craigslist.org/' 

    def parse(self, response): 
     links = response.xpath('//a[@class="hdrlnk"]/@href').extract() 
     for link in links: 
      absolute_url = self.BASE_URL + link 
      yield scrapy.Request(absolute_url, callback=self.parse_attr) 

    def parse_attr(self, response): 
     item = DmozItem() 
     item["link"] = response.url 
     item["attr"] = "".join(response.xpath("//p[@class='attrgroup']//text()").extract()) 
     return item

Quelle

2015-05-10 15:05:00 alecxe

Und wie kann ich speichern gesammelten Daten in CSV-Datei für Beispiel? Ich habe es ausprobiert: scrapy crawl dmoz -o items.csv -t csv aber alles, was ich bekomme, ist eine leere Datei. –

@ArkanKalu sicher, Sie müssen Elemente aus dem 'parse_attr()' liefern/zurückgeben. Es war nur ein Beispielcode, mit dem Sie fortfahren konnten. – alecxe

Können Sie bitte diese Codezeile aufschreiben? Sorry für die Störung, ich bin Anfänger in diesem: D –

Make Scrapy folgen Links und sammeln Daten

Antwort

Verwandte Themen