Ich habe eine Reihe von Bildern, über die ich eine OCR-Anwendung ausführen. Dieser Prozess führt zu einer XML-Datei mit Zeichenoffsets. Dann konvertiere ich die Bilder mit Acrobat 9 nach PDF. Nun möchte ich die XML-Dateiinformationen als unsichtbare Textebene in das PDF einfügen, um ein durchsuchbares PDF zu erhalten. Gibt es einen einfachen und kostenlosen Weg?Wie bette ich externe OCR in bestehende PDF ein?
Einige Details:
Ich will nicht Acrobat OCR-Funktionalität verwenden;
Die OCR-Prozess führt zu einer XML-Datei, die Elemente wie enthält:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
Update: es möglich sein kann tun, was ich in einer anderen Art und Weise wollen. Angenommen, es gibt bereits eine PDF-Datei, die aus einer Reihe von Bildern generiert wurde und die bereits OCR-Text enthält. Wäre es möglich (vielleicht programmatisch), nur auf das Bild jeder Seite zuzugreifen, es zu verarbeiten (z. B. es in ein Monochrom umzuwandeln) und es zurück in die PDF-Datei zu speichern? Wenn ja, wäre der OCR-Text nicht verloren.
[Soll ich dieses Update in eine separate Frage?]
Sie finden [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) nützlich –