Ich versuche eine ganze Webseite zu lesen und sie einer Variablen zuzuweisen, habe aber Probleme damit. Die Variable scheint nur die ersten 512 Zeilen der Seitenquelle zu enthalten.So lesen Sie eine ganze Webseite in eine Variable
Ich versuchte mit Hilfe von readlines(), nur alle Zeilen der Quelle auf den Bildschirm zu drucken, und das gab mir die Quelle in seiner Gesamtheit, aber ich muss in der Lage sein, mit Regex zu analysieren, also muss ich es speichern in einer Variablen irgendwie. Hilfe?
data = urllib2.urlopen(url)
print data
Nur gibt mir etwa 1/3 der Quelle.
data = urllib2.urlopen(url)
for lines in data.readlines()
print lines
Dies gibt mir die gesamte Quelle.
Wie gesagt, ich muss in der Lage sein, die Zeichenfolge mit Regex zu analysieren, aber der Teil, den ich brauche, ist nicht im ersten 1/3, das ich in meiner Variablen speichern kann.
möglich duplicate von [Download html Seite und ihr Inhalt] (http://stackoverflow.com/questions/1825438/download-html-page-and-its-content) –