Ich habe versucht, einen Weg zu finden, wie unser OCRed PDF (bad-uc.pdf) sich genauso verhält wie das infix, das gespeichert wurde (good-uc.pdf) .PDF-Optimierung - Laden von Bildern vor eingebettetem Text - Siehe Beispiele
Wenn Sie die folgenden zwei Dateien in Acrobat Reader öffnen (jede Version sollte das gleiche Problem zeigen), werden Sie die bad-uc.pdf lädt den Text vor dem Seitenbild (sehr langsam) ... wo das Gute -uc.pdf lädt alles zusammen (scheint viel schneller und reaktionsschneller).
gut uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing
Ich habe versucht: pdftk, pdftops, ghost, pdf2ps, ps2pdf und qpdf, aber immer noch nicht die Bilder, bevor bekommen konnte zu laden der Text ... Kann jemand Experte in PDF etwas Licht auf warum diese zwei PDFs anders verhalten ...
Ich denke, Infix restrukturieren die PDF so die Bilder vor dem eingebetteten Text geladen werden, aber ich kann kein Linux finden Befehlszeilen-Tool, das diese Art von PDF-Struktur Optimierung tun kann.
Sehr geschätzt !! Jeffrey
Vielen Dank mkl für die tolle Information! Weißt du, ob ein Linux-Tool den Rendering-Modus ändern kann? So kann ich das bad-uc.pdf im Modus 3 rendern ("unsichtbar"). –
Ich kenne solche Werkzeuge nicht, ich habe nur eine Idee, wie man ein solches Werkzeug implementiert. – mkl
Vielen Dank Herr! Das war ein toller Hinweis. Ich habe es geschafft, ein einfaches Skript zu schreiben, das die Rendering-Modus-Tags an geeigneten Stellen einfügt. Dieses Skript ist jedoch möglicherweise nur für unsere Anwendung nützlich, da alle unsere PDFs von ABBYY generiert werden und wir die Formatkonsistenz des PDFs kontrollieren können, damit mein Skript Tags an den richtigen Stellen einfügen kann. P.S. Entschuldigung, ich wollte wirklich den "nützlichen" Pfeil drücken, aber mein Ruf ist nicht hoch genug ... Nochmals vielen Dank für den tollen Hinweis !! GENIAL!! –