Ich verwende diesen Code zu erhalten, alle interessanten Links in einer Seite zu finden:BeautifulSoup - einfache Möglichkeit, HTML-freie Inhalte
soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))
Und es macht seinen Job sehr gut. Leider in diesem ein Tag gibt es viele verschachtelte Tags, wie Schriftart, b und verschiedene Dinge ... Ich möchte nur den Textinhalt erhalten, ohne andere HTML-Tags.
Beispiel für Link:
<A HREF="notizia.php?idn=1134" OnMouseOver="verde();" OnMouseOut="blu();"><FONT CLASS="v12"><B>03-11-2009: <font color=green>CCS Ingegneria Elettronica-Sportello studenti ed orientamento</B></FONT></A>
Natürlich hässlich ist es (und das Markup nicht immer das gleiche!), Und ich möchte bekommen:
03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento
In der Dokumentation heißt es zu verwenden text=True
in findAll-Methode, aber es ignoriert meine Regex. Warum? Wie kann ich das lösen?
PyQuery klingt wie eine wirklich coole Alternative: http://pypi.python.org/pypi/pyquery –