2016-06-03 20 views
0

Also ich aus dem HTML einer Website drucken möchtenDrucken HTML Von URL

from urllib.request import urlopen 

http = urlopen('http://www.google.de/').read() 
print(http) 

Aber in der Ausgabe alle Zeilenumbrüche werden als \n gedruckt und die Zeichenfolge beginnt mit ab‘, die etwas mit einem Biss zu tun hat Array wie meine Google-Forschung mir erzählt? Entschuldigung, ich bin neu in Python xD

Also meine Frage ist, wie kann ich den HTML-Code als eine normale Zeichenfolge mit Zeilenumbrüchen, wie es in einem Texteditor angezeigt würde?

Antwort

0

Werfen Sie einen Blick auf die urlopen Dokumentation. Im HTML-Header wird charset=UTF-8 geschrieben. Deshalb müssen Sie Ihre Linie ändern:

print(http.decode('utf-8')) 

Falls Sie haben Sonderzeichen in der HTML-Ausgabe (aufgrund Locale-Einstellungen), zu verwenden:

print(http.decode('utf-8'), errors='ignore')