Ich bin neu in Web-Scraping, und ich verwende das folgende Werkzeug und Verfahren verschrotten:Web Schaben Oracle (ATG) Commerce
- I R verwenden (mit Paketen Beuge, XML, etc.) im Internet zu lesen Seiten (mit einer URL-Verknüpfung) und htmlTreeParse-Funktion zum Analysieren der HTML-Seite.
- Dann, um zu wissen, die Daten zu bekommen, die ich will, verwende ich zuerst das Entwicklerwerkzeug i Chrome, um den Code zu inspizieren.
- Wenn ich weiß, in welchem Knoten die Daten sind, verwende ich XpathApply, um sie zu bekommen.
Normalerweise funktioniert es gut. Aber ich hatte ein Problem mit dieser Seite: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2
- Wenn Sie auf den Link klicken, werden Sie die Seite laden, und in der Tat ist es die Seite 1 (der Produkte).
- Sie müssen die URL erneut laden (durch ein zweites Mal die URL eingeben), um die Seite 2 zu erhalten.
- Wenn ich den üblichen Prozess verwenden, um die Daten zu lesen. Die Funktion htmlTreeParse gibt mir immer die Seite1.
Ich habe versucht, mehr diese Website zu verstehen:
- Es scheint, dass es mit Oracle Commerce (ATG Commerce) gebaut wird.
- Die „echte“ URL versteckt ist, und wenn Sie auf den Filter klicken (zum Beispiel wählen Sie eine Marke), werden Sie url mit RequestID erhalten: http://www.sephora.fr/Parfum/Parfum-Femme/C309?_requestid=285099
Dies nicht zu wissen, hilft die Auswahl, die ich getroffen habe.
Könnten Sie bitte helfen:
- Wie kann ich mehr Produkte zugreifen?
Danke
Warum versuchen Sie, diese Website zu scrappen und haben Sie die Erlaubnis von den Sephora, dies zu tun? – bated