Ich benutze das Paket tm
. Ich habe ein Korpus voller HTML-Dokument und ich möchte alles außer den HTML-Tags entfernen. Ich habe das seit ein paar Tagen versucht, aber ich finde keine gute Lösung.Entfernen Sie alles außer HTML-Tags aus einem Korpus
Zum Beispiel lassen Sie uns sagen, ich habe ein Dokument wie folgt aus:
<html>
<body>
<h1>hello</h1>
</body>
</html>
ich das Dokument wie diese werden wollen würde:
<html> <body> <h1>
(Oder mit den schließenden Tags, I don‘ t wirklich etwas dagegen.)
Mein Ziel ist es zu zählen, wie oft jedes Tag in einem Dokument verwendet wird.
Dies könnte funktionieren, wenn er wirklich einfache HTML hat aber im Allgemeinen Sie kippt Parst html mit einem regulären Ausdruck . Zum Beispiel werden Attribute nicht herausgefiltert. – frankc
@frankc Wenn Sie diesen Kommentar hinterlassen, sollten Sie wirklich auf [Die Frage] (http://stackoverflow.com/q/1732348/324364) verlinken. :) – joran