2016-03-25 5 views
1

Mit Scrapy möchte ich meine extrahierte URL verwenden, um eine Binärdatei in den Speicher zu lesen und den Inhalt zu extrahieren.Wie öffne ich einen Dateistream zum Lesen mit Scrapy?

Derzeit kann ich die URL auf der Seite mit einem Selektor finden, z.

myFile = response.xpath('//a[contains(@href,".interestingfileextension")]/@href').extract() 

Wie lese ich dann diese Datei in den Speicher, damit ich nach Inhalten in dieser Datei suchen kann?

Vielen Dank

Antwort

0

eine Anfrage Stellen und den Inhalt in den Rückruf erkunden:

def parse(self, response): 
    url = response.xpath('//a[contains(@href,".interestingfileextension")]/@href').extract_first() 
    return scrapy.Request(url, callback=self.parse_file) 

def parse_file(self, response): 
    # response here is the contents of the file 
    print(response.body) 
+0

Perfect. Vielen Dank! Scrapy macht es sehr einfach. –