Python wieder nicht gierigen Modus (. *?) Mit Ende der Zeichenfolge ($) es kommt gierig!

Code:

str = '<br><br />A<br />B' 
print(re.sub(r'<br.*?>\w$', '', str))

Es wird erwartet,  A zurück, aber es gibt einen leeren String ''!

Irgendwelche Vorschläge?

Quelle

2010-11-25 Jet Guo

Bitte verwenden Sie niemals 'str' als Variablenname. –

Danke an Ihren Vorschlag. –

Äh ... hey ... Sie analysieren HTML nicht mit regulären Ausdrücken, oder? – detly

Gierigkeit funktioniert von links nach rechts, aber nicht anders. Es bedeutet im Grunde "nicht übereinstimmen, wenn Sie nicht übereinstimmen". Hier ist was los:

Die Regex-Engine entspricht <br zu Beginn der Zeichenfolge.
.*? wird für jetzt ignoriert, es ist faul.
Versuchen Sie, > zu entsprechen, und ist erfolgreich.
Versuchen Sie, \w übereinzustimmen und schlägt fehl. Jetzt ist es interessant - die Engine startet Backtracking und sieht die .*? Regel. In diesem Fall kann . die erste > übereinstimmen, also gibt es noch Hoffnung für dieses Spiel.
Dies passiert, bis die Regex den Schrägstrich erreicht. Dann kann >\w übereinstimmen, aber $ schlägt fehl. Auch hier kommt der Motor auf die faulen .* Regel zurück, und Matching hält, bis es zum Glück  A B

paßt, gibt es eine einfache Lösung: Durch <br[^>]*>\w$ ersetzen Sie dies nicht tun passende außerhalb Ihrer Tags erlauben, so Es sollte das letzte Vorkommen ersetzen.
Genau genommen funktioniert dies nicht gut für HTML, weil Tag-Attribute > Zeichen enthalten können, aber ich nehme an, es ist nur ein Beispiel.

Quelle

2010-11-25 05:57:40 Kobi

Die Non-Gierigkeit wird später nicht so beginnen. Es entspricht der ersten <br und wird nicht gierig mit dem Rest übereinstimmen, der tatsächlich an das Ende der Zeichenfolge gehen muss, weil Sie die $ angeben.

Um es die Art und Weise funktioniert Sie verwenden

/<br[^<]*?>\w$/

aber in der Regel ist es nicht zu verwenden regex empfohlen wollte HTML zu analysieren, da einige Wert des Attributs < oder > darin haben kann.

Quelle

2010-11-25 05:56:51

Python wieder nicht gierigen Modus (. *?) Mit Ende der Zeichenfolge ($) es kommt gierig!

Antwort

Verwandte Themen