Ich habe eine Reihe anderer stackoverflow Antworten gelesen und muss noch eine befriedigende Antwort zu diesem finden, aber es wurde zuvor gefragt. Wenn ich versuche, PyPDF2 zum Lesen von PDF-Dokumenten zu verwenden, fasst es alle Wörter in einem Satz zu einer fortlaufenden Zeichenfolge zusammen. Hat jemand Fortschritte dabei gemacht, herauszufinden, wie man das vermeiden kann? Unter dem Code untenPyPDF2 besteht darauf, alle Leerzeichen zu entfernen
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
ist eine Probe des Ausgangs
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables