Ich benutze BeautifulSoup lxml Parser, um einige HTML zu analysieren. Es wird jedoch nicht analysiert, wie es geschrieben wurde. Zum Beispiel der folgende Code:BeautifulSoup lxml Parser schließende Tags, wo es nicht sein sollte
import bs4
my_html = '''
<html>
<body>
<B>
<P>
Hello, I am some bolded text
</P>
</B>
</body>
</html>
'''
soup = bs4.BeautifulSoup(my_html, 'lxml')
print soup.prettify()
druckt:
<html>
<body>
<b>
</b>
<p>
Hello, I am some bolded text
</p>
</body>
</html>
Sie können das irgendwie sehen die <B>
Tag aus my_html
wird vor dem <p>
-Tag in der prettified Version geschlossen, obwohl es sein sollte nach der </p>
geschlossen sein. Irgendwelche Ideen darüber, was passieren könnte? Ich bin total verblüfft.
Danke, ich werde in jene aussehen, obwohl ich vor, zumindest einige andere Probleme mit dem 'html.parser' hatte. – George