2016-04-27 14 views
2

Ich versuche, Texte/Bilder/Tabellen aus einer PDF-Datei mit Perl zu extrahieren.Bilder/Texte aus PDF extrahieren mit Perl

Ich versuchte mit CAM::PDF, die nicht im Text aber als ein anderes Format extrahieren.

Gibt es eine Methode, um Texte/Bilder/Tabellen aus einem PDF mit Perl-Modulen zu extrahieren?

+1

Gibt es eine PDF-Beispiel Datei online, mit der Sie verlinken können? – Borodin

+0

'pdftohtml' von Poppler. Keine Notwendigkeit, Ihre Vernunft zu verlieren. –

Antwort

0

Verwenden Sie CAM::PDF. Es hat einige Methoden, die Sie Bilder oder andere Elemente extrahieren helfen:

$doc->getProperty($pagenum, $propertyname) 
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node). 
+0

ich benutzte CAM :: PDF -J Atwal. Aber ich bekomme nicht die richtige Ausgabe in stdout. der Ausgang ist so etwas wie: ↓ ◄ ↑ ◄ ◄ § U ↨ ← ▬ § § 0 X ♥ 6 \ VWHP ♥, 3 ¶ ◄ ¶ § ◄ § ∟ ◄ § ▬ → 0 X ♥ 6 \! VWHP ♥ 6 HULDO ♥ ♠ ! §! ► § ¶ ↑ ¶! ►!!! ►! ▬ ' 0 X ♥ 6 \ VWHP ♥ 8 VHU DGPLQ ' HQLDO ► RI ► 6 HUYLFH ♥ ♂ ' R 6 ♀ ♥ 5 HVXO $ YDLODELOLW \ §! ♥ ♥ PLQ ¶ ♥ VHFRQG ¶ § ¶ ♥ PLOOLVHFRQGV ¶ 5 H F R Y H U H G ♥ Z L W K L Q ♥ ¶ ♥ P L Q X W H ♥ ([H F X W L Y H ♥ 6 X P P D U \ ♥ 5 H S R U W ↔ ♥ 5 $ 3 B ▬ ▬ ¶ ↑ B 'R 6 –

+0

hoffen, dass Sie versuchen nicht, Bilder auf stdout zu drucken;). Versuchen Sie, den Bildinhalt in einer Datei zu speichern, und öffnen Sie dann die Datei in einem Bild-Explorer. –

+0

Dies ist kein Bild, sondern Text. selbst dann druckt es so. –

1

@ priya..i dieses Modul versucht, die für PDF-Text-Extraktion fein arbeitet ..

use strict; 
use warnings; 
use PDF::OCR::Thorough; 


my $filename = "pdf.pdf"; 

my $pdf = PDF::OCR::Thorough->new($filename); 
my $text = $pdf->get_text(); 
print "$text";