Ich versuche, eine Zeichenfolge Text zu nehmen, und extrahiere den Rest des Textes im Absatz/Dokument aus dem HTML.Suche nach dem Eltern-Tag einer Textzeichenfolge mit ElementTree/lxml
Mein aktueller Ansatz versucht, das "Eltern-Tag" der Zeichenfolge in der HTML zu finden, die mit Lxml geparst wurde. (Wenn Sie einen besseren Weg kennen, um dieses Problem anzugehen, bin ich ganz Ohr!)
Suchen Sie zum Beispiel in der Baumstruktur nach "TEXT STRING HERE" und geben Sie das "p" -Tag zurück. (beachten Sie, dass ich das genaue Layout des HTML nicht vorher kennen werde)
Danke für Ihre Hilfe!