PyPDF2 besteht darauf, alle Leerzeichen zu entfernen

Ich habe eine Reihe anderer stackoverflow Antworten gelesen und muss noch eine befriedigende Antwort zu diesem finden, aber es wurde zuvor gefragt. Wenn ich versuche, PyPDF2 zum Lesen von PDF-Dokumenten zu verwenden, fasst es alle Wörter in einem Satz zu einer fortlaufenden Zeichenfolge zusammen. Hat jemand Fortschritte dabei gemacht, herauszufinden, wie man das vermeiden kann? Unter dem Code untenPyPDF2 besteht darauf, alle Leerzeichen zu entfernen

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText())

ist eine Probe des Ausgangs

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables

Quelle

2016-04-28 Steve

nie herausgefunden, wie die Räume zu entfernen, ist es ein sehr unhandlich Programm. Ich fand die Antwort, um pdfMiner zu verwenden, um am nützlichsten zu sein. Es ist leicht zu verstehen und es gibt eine bessere Dokumentation. Unten ist ein Link für alle, die das gleiche Problem haben wie ich.

http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html

Quelle

2016-05-06 14:46:11 Steve

PyPDF2 besteht darauf, alle Leerzeichen zu entfernen

Antwort

Verwandte Themen