Ich versuche, eine PDF in eine Textdatei zu konvertieren, indem ich scraperwiki und bs4 verwende. Ich bekomme eine TypeError
. Ich bin sehr neu bei Python und würde wirklich ein wenig Hilfe zu schätzen wissen. hierTypeError: muss in einen Puffer konvertierbar sein, nicht ResultSet
Fehler tritt auf:
File "scraper_wiki_download.py", line 53, in write_file
f.write(soup)
Dies ist mein Code:
# Get content, regardless of whether an HTML, XML or PDF file
def send_Request(url):
response = http.urlopen('GET', url, preload_content=False)
return response
# Use this to get PDF, covert to XML
def process_PDF(fileLocation):
pdfToProcess = send_Request(fileLocation)
pdfToObject = scraperwiki.pdftoxml(pdfToProcess.read())
return pdfToObject
# returns a navigatibale tree, which you can iterate through
def parse_HTML_tree(contentToParse):
soup = BeautifulSoup(contentToParse, 'lxml')
return soup
pdf = process_PDF('http://www.sfbos.org/Modules/ShowDocument.aspx?documentid=54790')
pdfToSoup = parse_HTML_tree(pdf)
soupToArray = pdfToSoup.findAll('text')
def write_file(soup_array):
with open('test.txt', "wb") as f:
f.write(soup_array)
write_file(soupToArray)
Es helfen könnte, zu wissen, welche Linie die Ausnahme auslöst. – polku