Ich verwende Xpdf für Text aus PDF-Dateien zu extrahieren, die gut mit -raw
Option funktionieren, aber jetzt wollen wir die PDF-Dateien konvertieren die in HTML-Dateien zum Extrahieren der HTML-Formatierung Tags wie fett <b>, kursiv <i> usw. mit Text. Xpdf mit der Option funktioniert, ich habe auch versucht, mit pdf2html für diese, aber fand es nicht zuverlässig, da Tags wie < > und < > fehlen.Gibt es eine Möglichkeit, Acrobat Reader in Perl zu verwenden, um mehrere PDF-Dateien als HTML-Dateien zu speichern?
Wir verwenden jetzt Acrobat Reader, um die PDF-Dateien als HTML-Dateien zu speichern, die uns alle HTML-Formatierungs-Tags gibt.
Gibt es eine Möglichkeit, Acrobat Reader in Perl zu verwenden, um mehrere PDF-Dateien als HTML-Dateien zu speichern?
Vielen Dank.
Müssen Sie dies wirklich von Perl aus tun, oder funktioniert alles, was eine externe Anwendung steuern kann? –
Es muss nicht in Perl sein, würde jede andere Anwendung tun. Die einzige Sache ist, dass es in der Lage sein sollte, mehrere Dateien zu konvertieren. –