2012-03-23 5 views
3

Zuerst einige Hintergrund: Meine Website hat zwei grundlegende Arten von Benutzern. Benutzer mit kostenlosen Konten können Dokumente hochladen und bezahlte Kunden können diese Dokumente dann suchen und anzeigen oder herunterladen. Uploader können nur die Dokumente anzeigen, die sie besitzen, während bezahlte Kunden alles anzeigen können. Derzeit unterstützen wir nur Word-Dokumente (.doc oder .docx) und Nur-Text. Wir verwenden die JODConverter-Bibliothek, um zwischen Word und HTML zu konvertieren; Das HTML ist, was in der Datenbank gespeichert ist und was den Benutzern angezeigt wird.
Wir wollen auch PDFs akzeptieren, aber ich bin mir nicht sicher, wie ich die PDFs am besten anzeigen oder in HTML umwandeln kann. Ich habe Vorschläge zur Verwendung der Google-Dokumente zur Conversion im laufenden Betrieb gesehen, es scheint jedoch nicht möglich, den Zugriff ordnungsgemäß einzuschränken, da das Dokument für Google öffentlich zugänglich sein muss. Bitte korrigieren Sie mich, wenn ich falsch liege. Es scheint, als würde die Verwendung eines Tags in html (oder etwas wie PDFBox) auf dasselbe Problem stoßen.
Alternativ könnten wir vergessen, die PDF-Dateien direkt anzuzeigen und sie in HTML zu konvertieren, so wie wir es mit Word-Dokumenten tun, aber ich bin noch nicht auf eine anständig aussehende Bibliothek gestoßen. Alles, was ich bisher gesehen habe, scheint zu sagen, dass es nicht so toll ist, einen Job zu konvertieren, ist nur für Windows und/oder hat eine hohe Lizenzgebühr. (Eine Lizenzgebühr ist nicht unbedingt ein Deal-Breaker, wenn sie nicht mehr als 100 $/Jahr oder so beträgt.) Kennt jemand eine gute Java-Konvertierungsbibliothek? (Etwas, das über die Befehlszeile ausgeführt wird, wäre akzeptabel, wenn es tatsächlich einen guten Job macht.)
Eine letzte Sache, wir planen, den bezahlten Kunden die Option anzubieten, die ursprünglichen PDF-Dateien herunterzuladen. Ist das wahrscheinlich kompliziert? Gibt es etwas, das ich bei der Erstellung des restlichen Prozesses berücksichtigen sollte?Brauchen Sie Rat zur Anzeige (und/oder Konvertierung) von PDF-Dateien im Internet

Antwort

1

Anstatt PDF in HTML umzuwandeln, was eine Art von OCR (Erkennung des Texts) bedeutet, können Sie die PDF in Bilder umwandeln wie Werkzeuge JPedal und erstellen Sie eine HTML-Seite, die auf diese Bilder in einer sequentiellen Reihenfolge verknüpft. Da dies eine Java-Bibliothek ist, ist es nicht nur Windows.

Das Herunterladen von Original-PDF-Dateien sollte kein Problem sein. Sie müssen den MIME-Typ einfach auf die Standard-PDF-Erweiterung einstellen: application/pdf in der Kopfzeile.

+1

Ich nehme an, so etwas könnte funktionieren; Unsere Kunden sind es jedoch gewohnt, dass ihre Suchbegriffe bei der Betrachtung der Dokumente hervorgehoben werden. Außerdem wird die Fähigkeit zum Kopieren und Einfügen aus den Dokumenten zerstört. Natürlich ist das wahrscheinlich ein Problem, unabhängig davon, mit welcher Lösung ich am Ende bin. – joshg

+2

Es gibt auch einen kommerziellen PDF zu HTML5 Konverter basierend auf JPedal unter http://www.jpedal.org/html_index.php –

+1

@mark - Kennen Sie jemanden, der es tatsächlich benutzt hat? Dieser Preis ist ziemlich steil, aber wenn es wirklich gut funktioniert, könnte mein Chef dafür gehen. – joshg