2009-01-21 25 views
17

Ich arbeite an einem Online-Portal, wo Forscher ihre Forschungsarbeiten hochladen können. Eine Voraussetzung ist, dass alle PDFs im PDF/A-Format gespeichert werden. Da ich mich nicht darauf verlassen kann, dass die Benutzer PDF/A-konforme Dokumente erstellen, benötige ich ein Tool, um Standard-PDFs im PDF/A-Format zu prüfen und zu konvertieren.Konvertieren in PDF/A und Überprüfen der Konformität unter Linux

Was ist das beste Werkzeug, das Sie kennen?

  • Preis
  • Qualität
  • Geschwindigkeit
  • Verfügbare APIs

Open-Source-Tools würden bevorzugt werden, aber eine Suche keine enthüllt. iText kann PDF/a erstellen, aber die Konvertierung ist nicht einfach, da Sie jede Seite lesen und in ein neues Dokument kopieren müssen, wobei alle Lesezeichen und Anmerkungen in diesem Prozess verloren gehen. (Zumindest soweit ich weiß, wenn Sie von einer einfachen Lösung wissen, lassen Sie es mich wissen).

APIs sollten für PHP, Java oder ein Befehlszeilentool verfügbar sein. Bitte listen Sie keine GUI- oder nur Online-Lösungen auf.

Antwort

8

Ich bin nicht sicher, dass alle Ihre Ziele gleichzeitig erfüllt werden können. Die Geschichte um PDF/A ist viel komplexer als Formatkonvertierungen wie TIFF zu PNG.

  • Das Basisformat ist PDF 1.4: Was tun mit höheren versionierten Dokumenten, die Funktionen dieser höheren Versionen verwenden? Informationen könnten verloren gehen.
  • Sowohl in PDF/A-1a als auch in 1b sind Metadaten im XMP/RDF-Format obligatorisch. Wenn das Originaldokument ohne Metadaten ist, müssen Sie es von irgendwo abrufen und es hinzufügen. Zumindest kann iText das tun.
  • Es gibt viele kleine Details, die richtig funktionieren, von der Einbettung von Schriftarten bis zur Sicherstellung, dass Leerzeichen vorhanden sind und nicht nur horizontale Bewegungsbefehle.
  • Um es zusammenzufassen: Ich denke, Sie sind besser dran, die Verantwortung für die Einhaltung der PDF-Hersteller ganz oder teilweise zu übernehmen. Das bedeutet natürlich nicht, dass Sie ihnen nicht helfen können: Wenn Sie herausfinden, welche Tools die meisten verwenden, um ihre Dokumente zu erstellen, können Sie auf die Dokumentation zu PDF/A und den spezifischen Tools verweisen. (als ein bisschen ein extremes Beispiel für solche Dokumentation, sehen Sie sich this)

    Viel Glück mit Ihren Bemühungen.

    +0

    der Link scheint zu brechen – castle1971

    +0

    Danke, habe ich den Link behoben. –

    0

    Ich bin mir nicht sicher von PDF/a-Dokumenten, aber Sie haben sich jodconverter angesehen? Es kann viele verschiedene Formate für Sie konvertieren, und es ist Open Source. Wir verwenden es ziemlich umfangreich in unserem Projekt.

    http://www.artofsolving.com/opensource/jodconverter

    1

    The Open Office API project könnte das sein, was Sie suchen. Ab 2.4 unterstützt Open Office PDF/a-Dokumente. Hier ist ein code example von der Website zum Konvertieren von Dokumenten, dieses Beispiel ist in Java.

    8

    Ich arbeitete für die Französische Nationalbibliothek, um ein Archivsystem zu bauen, das diese Art von Dingen tat. Wie die meisten der Top-Ten-Bibliotheken der Welt verwendeten wir JHOVE, um Dateiformate zu erkennen.

    JHOVE kann sagen, ob Dateien PDF/A sind oder nicht, und es kann sogar Validate sie. Es kennt auch 7 andere Arten von PDF, siehe the details.

    JHOVE ist Open Source, es wird von JSTOR und der Harvard University Library gepflegt. Es ist ziemlich einfach zu use.