Ich suche BeautifulSoup4 und entweder urllib oder Anfragen zu verwenden, um einige Dokumente zu kratzen, aber einige von ihnen haben & nbsp in sie statt normaler Räume. In einigen der Dokumente gibt es Zeilen wie folgt aus:BeautifulSoup4 Konvertieren von HTML-Entitäten (non-breaking Raum?), Bevor die Suche (Python 3.X)
"Pursuant to the requirements of Section 13..."
aber sie können überall platziert werden, so dass sie durch Leerzeichen, ex ersetzt werden müssen:
"Pursuant to the requirements of Section 13...."
Ich brauche sie zu ersetzen bevor ich den soup.find tun(), so etwas wie diese:
#code to get request from server goes here
soup=BeautifulSoup(requestedPage)
#remove nbsp
sectionRequired=soup.find(text=re.compile("Pursuant to the requirements of Section 13"))
Wie bin ich in der Lage, die & nbsp Räume mit normalen Räumen in einer Web-Seite zu ersetzen, bevor ich die BS4 Funktion finden verwenden, also kann ich ein string match in der soup.find() machen?
Ich habe Ihre fix umgesetzt, aber wenn ich den nächsten Schritt zu tun, erhalte ich eine Typeerror: ‚NoneType 'Objekt ist nicht iterierbar. Dies bedeutet, dass der Fund nicht funktioniert hat, also ist immer noch etwas nicht in Ordnung. Wenn Sie den Link verwenden möchten, den ich verwende, hier ist der Link: https://www.sec.gov/Archives/edgar/data/1800/000110465907013496/a07-1583_110k.htm – Retroflux
@ Retroflux, siehe die Bearbeitung –
Richtig, also wird sich die Regex mit den Zeilenumbrüchen beschäftigen und die Unescoe mit den Unicode-Zeichen umgehen? – Retroflux