So habe ich eine Aufgabe, die mich erfordert, um Daten von einer Website zu extrahieren, um eine "Top-10-Liste" zu bilden. Ich habe IMDB Top 250 Seite http://www.imdb.com/chart/top gewählt.Notwendigkeit, Daten von einer Website zu extrahieren und speichern in Liste mit Regex
Mit anderen Worten, ich brauche ein wenig Hilfe mit Regex, um die Namen der Filme zu isolieren und sie dann in einer Liste zu speichern. Ich habe den HTML-Code bereits in einer Variablen als String gespeichert (wenn das der falsche Weg ist, lasst es mich wissen).
Auch ich bin begrenzt von Modulen verwenden urlopen, re und HTMLParser
import HTMLParser
from urllib import urlopen
import re
site = urlopen("http://www.imdb.com/chart/top?tt0468569")
content = site.read()
print content
Pl Fügen Sie einfach den Code, den Sie bereits geschrieben haben, und eine spezifische Frage zu Ihrer Frage hinzu. –
Die Verwendung von Regex zum Parsen der Daten ist der falsche Weg, um sie zu erreichen. Im Idealfall sollten Sie BeautifulSoup verwenden, möchten Sie eine Antwort in Regex oder in BS4? – Keatinge
Ich weiß, es ist eine schmerzhafte Art, sich ihr zu nähern, aber die Anforderungen der Aufgabe besagen, dass wir keine anderen Module verwenden dürfen. Deshalb stecke ich fest. –