arbeitet Ich bin neu in scrappy und ich spielte mit dem scrapy Shell versucht, diese Website zu crawlen: www.spiegel.de/sitemap.xmlscrapy response.xpath auf XML-Dokument mit Standard-Namespace leeren Array zurückgibt, während response.re
Ich habe es mit
scrapy shell "http://www.spiegel.de/sitemap.xml"
und es funktioniert alles in Ordnung, wenn ich
verwendenresponse.body
i die gesamte Seite einschließlich xML-Tags sehen
jedoch zum Beispiel dieses:
response.xpath('//loc')
einfach nicht funktionieren.
Das Ergebnis erhalte ich eine leere Array
während
response.selector.re('somevalidregexpexpression')
eine Idee funktionieren würde, was könnte der Grund sein? könnte mit Codierung oder so verwandt sein? die Seite ist nicht utf-8
Ich benutze Python 2.7 auf Win 7. Ich versuchte die Xpath() auf einer anderen Website (Dmoz) und es hat gut funktioniert.
Das funktionierte perfekt. Vielen Dank! – elMeroMero