Ich versuche, einen regulären Ausdruck für meinen HTML-Parser zu schreiben.Wie schreibe ich einen regulären Ausdruck für HTML-Parsing?
Ich möchte eine HTML-Tag mit bestimmten Attribut (z. B. <div>
mit class="tab news selected"
), die eine oder mehrere <a href>
Tags enthält übereinstimmen. Der Regexp sollte mit dem gesamten Tag übereinstimmen (von <div>
bis </div>
). Ich scheine immer "Gedächtnis-erschöpft" -Fehler zu bekommen - mein Programm nimmt wahrscheinlich jedes Etikett, das es als passendes finden kann.
Ich verwende Boost Regex-Bibliotheken.
[Vorsicht vor Zalgo] (http://stackoverflow.com/a/1732454/135078) –