Angenommen, ich habe die folgende Zeichenfolge:findall() Verhalten (Python 2.7)
"<p>Hello</p>NOT<p>World</p>"
und ich möchte, um die Worte extrahieren Hello
und World
ich das folgende Skript für den Job erstellt
#!/usr/bin/env python
import re
string = "<p>Hello</p>NOT<p>World</p>"
match = re.findall(r"(<p>[\w\W]+</p>)", string)
print match
Ich bin nicht besonders daran interessiert, < p> und </p> zu strippen, also habe ich es nie im Skript getan.
Die Dolmetscher drucken
so sieht es offenbar die ersten < p> und die letzten </p>, während die zwischen Tags zu vernachlässigen. Sollte nicht findall()
alle drei Sätze der übereinstimmenden Zeichenketten obwohl zurückgeben? (die Zeichenkette, die es druckt, und die zwei Wörter).
Und wenn nicht, wie kann ich den Code ändern, um dies zu tun?
PS: Dies ist für ein Projekt und ich fand eine alternative Art und Weise zu tun, was ich brauchte, um, so ist dies aus pädagogischen Gründen, denke ich.
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – BrenBarn