Ich versuche die Daten von der Website zu scratzen www.vestiairecollective.com
Während des Scrapings habe ich Zugriff auf nur wenige seiner Hauptseiten. Zum Beispiel kann mein Skript die Daten für die URL http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3&step=180
nicht abkratzen.So loggen Sie sich beim Scrapen mit Python in eine Website ein 3.5
Ich habe viele Fragen des Stack-Überlauf verwiesen, die zeigen, wie es geht. Da ich Python 3.5 unter Windows verwende, funktioniert "mechanize" und "cookielib" nicht. Ich sah auch einige Fragen, die darauf hinwiesen, dass Bibliotheken wie "robobrowser" die Arbeit machen können. Ich habe es auch versucht und bin in der Mitte steckengeblieben.
Dann habe ich mit Sitzungen versucht und wenn ich mit request.Sessions() eingeben, sagt es Anfrage hat kein Attribut namens Sitzungen.
Bitte helfen Sie mir entweder Robobrowser oder andere Wege mit Code für diese bestimmte Website, wenn ich die oben genannte URL verwenden.
Dies ist, was ich nach dem Bezug der Antwort versucht: -
import urllib.request
from bs4 import BeautifulSoup
import requests
session=requests.Session()
loginUrl='http://www.vestiairecollective.com/'
resLogin=session.post(loginUrl,data= {'h':'5fcdc0ac04537595a747e2830037cca0','email':'[email protected]','password':'somepasswrd','ga_client_id':'750706459.1463098234'})
url='http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3'
res=session.get(url)
//The below url i have given because I want to scrape from this url
crl=urllib.request.urlopen("http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3")
soup=BeautifulSoup(crl.read(),"html.parser")
geturl=soup.find_all("div",{"class":"expand-snippet-container"})
for i in geturl: //The Scraping Part
data1=i.find_all("p",{"class":"brand"})
datac1=[da.contents[0] for da in data1]
brdata=("\n".join(datac1))
print(brdata)
Hier das Kratzen von der „crl“ Seite getan werden soll, aber es ist von der Hauptseite selbst zu tun.
Ist das ein Tippfehler? Haben Sie 'request.Sessions' oder' request.Session' probiert? Die erste existiert nicht (die Bibliothek heißt 'requests', und das Objekt ist eine' Session() '. –