2009-07-27 6 views
0

Ich verwende Xpdf für Text aus PDF-Dateien zu extrahieren, die gut mit -raw Option funktionieren, aber jetzt wollen wir die PDF-Dateien konvertieren die in HTML-Dateien zum Extrahieren der HTML-Formatierung Tags wie fett <b>, kursiv <i> usw. mit Text. Xpdf mit der Option funktioniert, ich habe auch versucht, mit pdf2html für diese, aber fand es nicht zuverlässig, da Tags wie < > und < > fehlen.Gibt es eine Möglichkeit, Acrobat Reader in Perl zu verwenden, um mehrere PDF-Dateien als HTML-Dateien zu speichern?

Wir verwenden jetzt Acrobat Reader, um die PDF-Dateien als HTML-Dateien zu speichern, die uns alle HTML-Formatierungs-Tags gibt.

Gibt es eine Möglichkeit, Acrobat Reader in Perl zu verwenden, um mehrere PDF-Dateien als HTML-Dateien zu speichern?

Vielen Dank.

+0

Müssen Sie dies wirklich von Perl aus tun, oder funktioniert alles, was eine externe Anwendung steuern kann? –

+0

Es muss nicht in Perl sein, würde jede andere Anwendung tun. Die einzige Sache ist, dass es in der Lage sein sollte, mehrere Dateien zu konvertieren. –

Antwort

2

PDF-Formatierungsinformationen sind völlig willkürlich und können nicht sinnvoll in HTML sinnvoll zugeordnet werden. Eine Strategie, mit der ich etwas Glück hatte, ist, die -xml Option zu pdftohtml zu verwenden und dann LibXML zu verwenden, um einige Heuristiken auf die Ausgabe anzuwenden und eine angemessene HTML-Annäherung des Originaldokuments zu erzielen.