Web Schaben Oracle (ATG) Commerce

Ich bin neu in Web-Scraping, und ich verwende das folgende Werkzeug und Verfahren verschrotten:Web Schaben Oracle (ATG) Commerce

I R verwenden (mit Paketen Beuge, XML, etc.) im Internet zu lesen Seiten (mit einer URL-Verknüpfung) und htmlTreeParse-Funktion zum Analysieren der HTML-Seite.
Dann, um zu wissen, die Daten zu bekommen, die ich will, verwende ich zuerst das Entwicklerwerkzeug i Chrome, um den Code zu inspizieren.
Wenn ich weiß, in welchem Knoten die Daten sind, verwende ich XpathApply, um sie zu bekommen.

Normalerweise funktioniert es gut. Aber ich hatte ein Problem mit dieser Seite: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2

Wenn Sie auf den Link klicken, werden Sie die Seite laden, und in der Tat ist es die Seite 1 (der Produkte).
Sie müssen die URL erneut laden (durch ein zweites Mal die URL eingeben), um die Seite 2 zu erhalten.
Wenn ich den üblichen Prozess verwenden, um die Daten zu lesen. Die Funktion htmlTreeParse gibt mir immer die Seite1.

Ich habe versucht, mehr diese Website zu verstehen:

Es scheint, dass es mit Oracle Commerce (ATG Commerce) gebaut wird.
Die „echte“ URL versteckt ist, und wenn Sie auf den Filter klicken (zum Beispiel wählen Sie eine Marke), werden Sie url mit RequestID erhalten: http://www.sephora.fr/Parfum/Parfum-Femme/C309?_requestid=285099

Dies nicht zu wissen, hilft die Auswahl, die ich getroffen habe.

Könnten Sie bitte helfen:

Wie kann ich mehr Produkte zugreifen?

Danke

Quelle

2016-05-12 XR SC

Warum versuchen Sie, diese Website zu scrappen und haben Sie die Erlaubnis von den Sephora, dies zu tun? – bated

ich die Lösung gefunden: Selen! Ich denke, dass es das ultimative Werkzeug für Web Scraping ist. Ich habe einige Fragen zum Web Scraping gestellt, jetzt ist mit Rselenium fast alles möglich.

Quelle

2016-06-04 16:59:45

Antwort

Verwandte Themen