Ich versuche, ein HTML-Fragment mit einem benutzerdefinierten HTML-Tag mit Nokogiri zu analysieren.Analysieren eines HTML-Fragments, das einige benutzerdefinierte Tags auf die weiße Liste setzt
Beispiel:
string = "<div>hello</div>\n<custom-tag></custom-tag>"
Ich habe versucht, es in vielerlei Hinsicht zu laden, aber keine ist optimal.
Wenn ich Nokogiri :: HTML:
doc = Nokogiri::HTML(string)
Wenn ich to_html
verwenden, es fügt einen doctype
und einen html
Tag, das den Inhalt umschließt. Es ist unerwünscht.
Wenn ich Nokogiri :: XML:
doc = Nokogiri::XML(string)
ich Error at line 2: Extra content at the end of the document
bekam, da in XML muss ein Root-Tag sein, dass alle Dokumentinhalt umschließt. Wenn ich versuche, wieder diesen Inhalt zu speichern, Der Ausgang ist <div>hello</div>
(jeden Tag nach dem ersten entfernt)
Ich habe auch versucht doc = Nokogiri::HTML.fragment
:
doc = Nokogiri::HTML.fragment(string)
Aber es beschwert sich über die custom-tag
.
Wie kann ich Nokogiri analysiert richtig mit diesem HTML-Fragmente?
Was ist Ihr erwartetes Ergebnis? –
@AmitSharma Ich erwarte, die Zeichenfolge ohne Fehler in HTML zu analysieren, auch wenn es ein 'custom-tag' enthält. Ich muss ein paar XPath-Abfragen machen, den Inhalt bearbeiten und serialisieren ohne Fehler zu HTML. – ProGM
Haben Sie dieses 'doc = Nokogiri :: HTML (string) .inner_html' probiert? –