Ich versuche Tupel von einer url und ich habe es geschafft, zu extrahieren String Text und Tupeln mit dem re.search(pattern_str, text_str)
zu extrahieren. Allerdings blieb ich stecken, als ich versuchte, eine Liste von Tupeln mit re.findall(pattern_str, text_str)
zu extrahieren.Wie extrahieren Tupel mit Fundall?
Der Text sieht so aus:
<li>
<a href="11111">
some text 111
<span class="some-class">
#11111
</span>
</a>
</li><li>
<a href="22222">
some text 222
<span class="some-class">
#22222
</span>
</a>
</li><li>
<a href="33333">
some text 333
<span class="some-class">
#33333
</span>
</a>
... # repeating
...
...
und ich bin mit dem folgenden Muster & Code die Tupel zu extrahieren:
text_above = "..." # this is the text above
pat_str = '<a href="(\d+)">\n(.+)\n<span class'
pat = re.compile(pat_str)
# following line is supposed to return the numbers from the 2nd line
# and the string from the 3rd line for each repeating sequence
list_of_tuples = re.findall(pat, text_above)
for t in list_of tuples:
# supposed to print "11111 -> blah blah 111"
print(t[0], '->', t[1])
Vielleicht etwas seltsam & unmöglich Ich versuche vielleicht seine besser, die Daten mit primitiven String-Manipulationen zu extrahieren ... Aber für den Fall, dass es eine Lösung gibt?
Sie analysieren nicht HTML mit regulären Ausdrücken. Verwenden Sie einen Parser wie eine schöne Suppe! –