Wie scrape man Daten, die mit infinite scroll erzeugt wurden?

Wie kratze ich die Produktliste von this page mit scrapy?Wie scrape man Daten, die mit infinite scroll erzeugt wurden?

Ich habe die Ajax-Request-URL versucht der Browser sendet:

https://www.amazon.cn/gp/profile/A34PAP6LGJIN6N/more?next_batch_params%5Breview_offset%5D=10&_=1469081762384

aber es gibt 404.

Quelle

2016-07-21 XO39

Sie müssen die Header replizieren, die Sie in der Anfrage sehen.

Wenn Sie die Antwort-Header inspizieren können Sie sehen:

von dem aus Sie benötigen scrapy.Request.headers Attribut zu aktualisieren. Mit wenigen dieser Werte. Zum größten Teil können Sie den Cookie überspringen, da scrapy diesen selbst verwaltet und normalerweise für Ajax-Anfragen wie diesen ist es bedeutungslos.

Für diesen Fall habe ich es geschafft, eine erfolgreiche Antwort zu erhalten, indem ich nur X-Requested-With Header repliziert. Dieser Header wird verwendet, um anzuzeigen, dass eine Ajax-Anfrage stattfindet.

Sie können tatsächlich testen und konstruieren diese Echtzeit:

scrapy shell <url> 
# gives you 403 
request.headers.update({'X-Requested-With': 'XMLHttpRequest'}) 
request.headers.update({'User-Agent': <some user agent>}) 
fetch(request) 
# now the request is redownloaded and it's 200!

Quelle

2016-07-21 05:36:21 Granitosaurus

Wie scrape man Daten, die mit infinite scroll erzeugt wurden?

Antwort

Verwandte Themen