2009-06-05 7 views
20

Was ist die beste Lösung zum Konvertieren von PDF-Dokumenten, die im Browser als HTML angezeigt werden? Die Website verfügt über mehrere PDF-Dokumente und der Besucher kann auf Ansicht als HTML klicken und dies sollte auf dem Bildschirm als HTML-Datei angezeigt werden.PDF in HTML konvertieren

Standard-Website mit PHP, Linux, Apache.

+0

einen Blick könnte man in pdfjs ausgesehen haben? http://mozilla.github.io/pdf.js/ –

Antwort

6

pdftohtml funktioniert gut: schnell, stabil, aber das HTML-Ergebnis ist bestenfalls hässlich. Ich habe es für eine lange Zeit für eine Website verwendet, die viele berufliche Zusammenfassungen hat.

Es ist eine gute Lösung zum Extrahieren von Textinhalt jedoch.

würde ich die scribd API einen Versuch geben

oder die API-Dokument von Google Apps. Google hat eine große Aufgabe eine Anzeige und Konvertierung von PDF-Dateien

+4

Für wissenschaftliche Arbeiten sieht das unglaublich aus: https://github.com/coolwanglu/pdf2htmleX – JDonner

+0

@JDonner ein Vorbehalt: das resultierende HTML Der Code ist unlesbar, allgemein nicht editierbar und benötigt Megabytes an Speicherplatz - zumindest für das PDF, mit dem ich ihn getestet habe (2,8 MiB HTML für ein 674,5 KiB PDF). Diese große Größe macht es besonders schlecht zum Servieren und macht eine schlechte Leseerfahrung (träge Scrolling etc.). – Ruslan

+0

@JDonner das Ergebnis sieht gut aus, aber HTML ist im Grunde nutzlos - es bricht Wörter auseinander, umschließt jeden Teil in verschiedenen Tags, extrahiert Schriften für jede Größe (der gleichen Schriftart) und bettet sie die Datei groß (wie Ruslan sagte). Sie konvertieren PDF besser in ein PNG-Bild als mit pdf2htmlEX – andrei

4

Haben Sie darüber nachgedacht, die PDF-Daten in einer Datenbank zu speichern und dann je nach Auswahl der Besucher die PDF- oder HTML-Seite dynamisch zu erstellen?

4

Wenn Sie über einen Befehlszeilenzugriff bei Ihrem Hosting-Provider verfügen, befindet sich im Paket poppler_utils das Dienstprogramm pdftohtml.

http://poppler.freedesktop.org/

Sieht ganz einfach zu bedienen, hat es nicht von innen von PHP genannt, aber es sollte funktionieren.

+0

pdftohtml bewahrt nicht den Stil – andrei