Es gibt auch eine kleine Bibliothek namens stripogram, die verwendet werden können einige oder alle HTML-Tags abzustreifen.
Sie können es wie folgt verwenden:
from stripogram import html2text, html2safehtml
# Only allow <b>, <a>, <i>, <br>, and <p> tags
clean_html = html2safehtml(original_html,valid_tags=("b", "a", "i", "br", "p"))
# Don't process <img> tags, just strip them out. Use an indent of 4 spaces
# and a page that's 80 characters wide.
text = html2text(original_html,ignore_tags=("img",),indent_width=4,page_width=80)
Also, wenn Sie alle HTML-Streifen aus einfach wollen, übergeben Sie valid_tags =() auf die erste Funktion.
Sie können die documentation here finden.
Könnte Overkill für Ihre Zwecke sein, aber BeautifulSoup einen Versuch geben, wenn Ihre Strings komplizierter oder falsch formatiert HTML haben. Vorbehalt: Ich denke nicht, dass es für Python 3.0 noch verfügbar ist. – bernie