Ich habe folgenden Code verwendet, um die Webseite unter dem Link https://www.blogforacure.com/members.php zu analysieren. Es wird erwartet, dass der Code die Links aller Mitglieder der angegebenen Seite zurückgibt.Wie kann ich lange Webseiten mit einer schönen Suppe analysieren?
from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('https://www.blogforacure.com/members.php').read()
soup = BeautifulSoup(r,'lxml')
headers = soup.find_all('h3')
print(len(headers))
for header in headers:
a = header.find('a')
print(a.attrs['href'])
Aber ich bekomme nur die ersten 10 Links von der obigen Seite. Auch wenn ich die Option "Verschönern" drucke, sehe ich nur die ersten 10 Links. Kann mir jemand helfen, das Problem zu lösen?
Ergebnisse werden durch Ajax-Aufrufe geladen. Wenn Sie das Seitenende erreichen, werden neue Ergebnisse vom Server abgerufen. – neetesh
Wie kann ich damit umgehen? – athira
Mein Ansatz ist Selenium zu verwenden, um mit der Seite zu verbinden und nach unten zu scrollen, wie beschrieben in: http://stackoverflow.com/questions/25870906/scrolling-web-page-using-selenium-python-webdriver – jinksPadlock