2009-03-10 7 views

Antwort

2

Dies ist eine komplexe Anfrage, weil es hängt von der PDF selbst (und wie es erstellt wurde), ob dies getan werden kann oder nicht. Als erster Versuch, würde ich versuchen, Adobes eigenen Online-PDF zu HTML-Konverter

http://www.adobe.com/products/acrobat/access_onlinetools.html

und dann versuchen, zu reparieren die HTML nach der Tat mit so etwas wie ordentlich

http://tidy.sourceforge.net/

zu verwenden

Wenn die PDFs durch das Scannen von Bildern erstellt wurden, dann ist möglicherweise kein Text mit ihnen verknüpft - dann können Sie die Seiten entweder schneiden und in JPG - Dokumente umwandeln oder eine Art von OCR - Software auf dem PDF selbst

Ich warne Sie, dass, selbst wenn die PDFs von Hand erstellt wurden und daher Textinformationen enthalten, wahrscheinlich Lot Fehler in der Konvertierung, die von Hand behoben werden muss. Ich arbeite an einem Produkt, das grundsätzlich diesen Prozess für Unternehmensberichte/etc durchführt und wir haben uns schließlich dazu entschlossen, die Seiten in JPG/GIF-Bilder und HTMLing zu schneiden, die - wie die anderen Prozesse - zu viele Fehler eingeführt haben und zu arbeitsintensiv waren um sie alle zu reparieren.