Internationale Zeichen von einer Webseite erhalten?

Ich möchte einige Informationen von einem Fußball (Fußball) Webseite mit einfachen Python Regexp's kratzen. Das Problem ist, dass Spieler wie der erste, ÄÄRITALO, als & # 196 herauskommt; & # 196; RITALO!
Das heißt, HTML verwendet für die Sonderzeichen, wie & # 196;Internationale Zeichen von einer Webseite erhalten?

Gibt es eine einfache Möglichkeit, die HTML in die richtige Python-Zeichenfolge zu lesen? Wenn es XML/XHTML wäre, wäre es einfach, der Parser würde es tun.

Quelle

2008-09-10 Nick Fortescue

Ich würde BeautifulSoup für HTML-Scraping empfehlen. Sie müssen auch sagen, HTML-Entitäten zu dem entsprechenden Unicode-Zeichen zu konvertieren, etwa so:

>>> from BeautifulSoup import BeautifulSoup  
>>> html = "<html>&#196;&#196;RITALO!</html>" 
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES) 
>>> print soup.contents[0].string 
ÄÄRITALO!

(Es wäre schön, wenn der Standard-codecs Modul einen Codec für diese enthält, so dass Sie tun konnten, "some_string".decode('html_entities') aber leider es funktioniert nicht)

EDIT: Eine andere Lösung: Python Entwickler Fredrik Lundh (Autor von elementtree ua) hat a function to unsecape HTML entities auf seiner Website, die mit dezimal, hex und benannten Entitäten (BeautifulSoup Werke arbeite nicht mit den Hexen).

Quelle

2008-09-10 00:50:19