2016-07-11 11 views
0

Ich habe versucht, einen Weg zu finden, wie unser OCRed PDF (bad-uc.pdf) sich genauso verhält wie das infix, das gespeichert wurde (good-uc.pdf) .PDF-Optimierung - Laden von Bildern vor eingebettetem Text - Siehe Beispiele

Wenn Sie die folgenden zwei Dateien in Acrobat Reader öffnen (jede Version sollte das gleiche Problem zeigen), werden Sie die bad-uc.pdf lädt den Text vor dem Seitenbild (sehr langsam) ... wo das Gute -uc.pdf lädt alles zusammen (scheint viel schneller und reaktionsschneller).

gut uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

Ich habe versucht: pdftk, pdftops, ghost, pdf2ps, ps2pdf und qpdf, aber immer noch nicht die Bilder, bevor bekommen konnte zu laden der Text ... Kann jemand Experte in PDF etwas Licht auf warum diese zwei PDFs anders verhalten ...

Ich denke, Infix restrukturieren die PDF so die Bilder vor dem eingebetteten Text geladen werden, aber ich kann kein Linux finden Befehlszeilen-Tool, das diese Art von PDF-Struktur Optimierung tun kann.

Sehr geschätzt !! Jeffrey

Antwort

0

Schuppen einige Lichter auf, warum diese beiden PDF-Dateien verhalten sich anders ...

Eigentlich sowohl PDFs etwa zur gleichen Zeit in Anspruch nehmen von Adobe Reader auf meinem Computer richtig angezeigt, bis zu werden. Aber während Ihr bad-uc.pdf zuerst den OCR-Text zeigt und ihn dann mit dem Scan abdeckt, scheint das Good-uc.pdf zuerst eine normale Seite zu zeigen und deckt sie dann mit dem Scan ab.

Der Grund dafür ist, dass good-uc.pdf den OCR-Text im Rendering-Modus 3 ("unsichtbar") und bad-uc.pdf im Rendering-Modus 0 ("Fülle-Umriss") normal malt Füllfarbe schwarz. Da die unsichtbare Malerei weniger Zeit benötigt als die tatsächliche Malerei in Schwarz auf Weiß, könnte es sogar einen objektiven Unterschied zwischen den Rendering-Zeiten geben, aber ich denke, dass es meistens subjektiv ist.

+0

Vielen Dank mkl für die tolle Information! Weißt du, ob ein Linux-Tool den Rendering-Modus ändern kann? So kann ich das bad-uc.pdf im Modus 3 rendern ("unsichtbar"). –

+0

Ich kenne solche Werkzeuge nicht, ich habe nur eine Idee, wie man ein solches Werkzeug implementiert. – mkl

+0

Vielen Dank Herr! Das war ein toller Hinweis. Ich habe es geschafft, ein einfaches Skript zu schreiben, das die Rendering-Modus-Tags an geeigneten Stellen einfügt. Dieses Skript ist jedoch möglicherweise nur für unsere Anwendung nützlich, da alle unsere PDFs von ABBYY generiert werden und wir die Formatkonsistenz des PDFs kontrollieren können, damit mein Skript Tags an den richtigen Stellen einfügen kann. P.S. Entschuldigung, ich wollte wirklich den "nützlichen" Pfeil drücken, aber mein Ruf ist nicht hoch genug ... Nochmals vielen Dank für den tollen Hinweis !! GENIAL!! –