Ich möchte einige Informationen von einem Fußball (Fußball) Webseite mit einfachen Python Regexp's kratzen. Das Problem ist, dass Spieler wie der erste, ÄÄRITALO, als & # 196 herauskommt; & # 196; RITALO!
Das heißt, HTML verwendet für die Sonderzeichen, wie & # 196;Internationale Zeichen von einer Webseite erhalten?
Gibt es eine einfache Möglichkeit, die HTML in die richtige Python-Zeichenfolge zu lesen? Wenn es XML/XHTML wäre, wäre es einfach, der Parser würde es tun.