Gibt es ein besseres HTML-Escaping- und Unescaping-Tool als CGI für Ruby?

CGI.escapeHTML ist ziemlich schlecht, aber CGI.unescapeHTML ist komplett borked. Zum Beispiel:Gibt es ein besseres HTML-Escaping- und Unescaping-Tool als CGI für Ruby?

require 'cgi' 

CGI.unescapeHTML('&#8230;') 
# => "…"     # correct - an ellipsis 

CGI.unescapeHTML('&hellip;') 
# => "&hellip;"    # should be "…" 

CGI.unescapeHTML('&#162;') 
# => "\242"     # correct - a cent 

CGI.unescapeHTML('&cent;') 
# => "&cent;"    # should be "\242" 

CGI.escapeHTML("…") 
# => "…"     # should be "&#8230;"

Es scheint, dass unescapeHTML weiß über all die numerischen Codes sowie &, <, > und ". Und escapeHTML kennt nur die letzten vier - es macht keinen der numerischen Codes. Ich verstehe, dass das Entkommen im Allgemeinen nicht so robust sein muss, da HTML die literalen Versionen der meisten Zeichen erlaubt, außer den vier, die CGI.escapeHTML kennt. Aber Unescaping sollte wirklich besser sein.

Gibt es ein besseres Tool, zumindest für Unescaping?

Quelle

2008-12-18 James A. Rosen

Es behandelt nicht — entweder. – Chloe

Das htmlentities Juwel sollte es tun:

require 'rubygems' 
require 'htmlentities' 

coder = HTMLEntities.new 

coder.decode('&#8230;') # => "…" 
coder.decode('&hellip;') # => "…" 
coder.decode('&#162;') # => "¢" 
coder.decode('&cent;') # => "¢" 
coder.encode("…", :named) # => "&hellip;" 
coder.encode("…", :decimal) # => "&#8230;"

Quelle

2008-12-20 18:17:41 titanous

require 'rubygems' 
require 'hpricot' 

Hpricot('&#8230;', :xhtml_strict => true).to_plain_text

Obwohl Sie möglicherweise mit der Zeichenkodierung herumspielen müssen.

Quelle

2008-12-18 23:21:06

Verwenden Sie den Edelstein htmlentities statt hpricot. –

Gibt es ein besseres HTML-Escaping- und Unescaping-Tool als CGI für Ruby?

Antwort

Verwandte Themen