2015-01-12 10 views

Antwort

0

Suchen Sie nach einem Muster, das zeigt, dass Sie eine Seitennummer oder Kopfzeile, Fußzeile haben! Zum Beispiel, wenn verwenden ich pdftotext eine PDF-Datei in Text zu konvertieren erkennen ich, dass Anzahl Seiten allein im Text stehen, so habe ich reguläre Ausdrücke sie wie folgt zu ersetzen:

for root, dirs, files in os.walk(src, topdown=False): 
    for name in files: 
     if name.endswith('.txt'): 
      with open(os.path.join(root, name), "r") as fin: 
       data = fin.read()  
       new_text = re.sub(r'\n\d+\n\s','',data,re.DOTALL) 

Da jede Seitennummer in einer Linie war (ohne irgendeinen anderen Text) und nach dieser Nummer hatte ich eine neue Zeile. Ich habe das gleiche für Kopf- und Fußzeile der PDF-Datei getan.

4

Sie müssen zuschneiden mit den Parametern -H -W -y -x, mindestens -H-W -y.

Beispiel:

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf 


-y 80 -> crop 80 pixels after the top of file (remove header); 
-H 650 -> crop 650 pixels after the -y has cropped (remove footer); 
-W 1000 -> hight value to crop nothing (need especify something); 

Sie passen zu jedem PDF -y und -H müssen, manchmal -y reduziert und die Erhöhung -H mit der Kopf- und Fußzeile zu passen;

+0

Wie die Anzahl der Pixel zu zählen? – TatianaP