2009-10-25 3 views
19

Ich weiß, wie man ein PDF von LaTeX macht. Gibt es eine Möglichkeit, den LaTeX-Code aus einer PDF-Datei zu extrahieren, die ich zuvor erstellt habe? Wie wäre es, wenn jemand mir ein PDF schickt und mir die Formatierung gefällt. Kann ich das LaTeX daraus extrahieren?Recover PDF zu LaTeX

+1

http://tex.stackexchange.com/questions/8503/how-to-convert-pdf-to-latex –

Antwort

12

LaTeX hat keine Eins-zu-Eins-Konvertierung in PDF. Was Ihre erste Frage anbelangt, glaube ich, dass eine solche Umwandlung technisch möglich ist, aber ich glaube nicht, dass eine solche Anwendung noch existiert. Ähnlich wie Assembler wieder in Hochsprache dekompiliert werden kann, gibt es wahrscheinlich einen Weg, dies zu tun. Jedoch - ein PDF darf alle Arten von Daten enthalten - AutoCAD-Zeichnungen, JPEG-Grafiken, Schriftdateien, Formulare, digitale Signaturen usw. LaTeX hat keine Ahnung, was diese Dinge sind. Als Antwort auf die zweite Frage gibt es keine Möglichkeit, gleichartiges LaTeX aus einem PDF-Dokument zu extrahieren.

4

Kurzversion: Nein

Lange Version: Es ist ein viel wie decompiling: Sie technisch kann, aber es wäre viel zu raten und Heuristiken beinhaltet.

Ich bin nicht vertraut mit den PDF-Innereien, aber es wird wahrscheinlich Schriftarten/Größen/Position direkt setzen, anstatt ein Format zu definieren und es auf Header und dergleichen, wie in LaTeX anwenden.

6

Dies ist nur möglich, wenn Sie die Quelle des Dokuments in die PDF-Datei einbetten. Sehen Sie hierzu das Paket attachfile.

+0

Alternativ können Sie die anklickenden Metadaten mithilfe der mit Tags versehenen PDF-Datei hinzufügen. –

+0

Ja, das stimmt, aber mir ist keine vorbekannte Möglichkeit bekannt, die LaTeX-Quelle über diese Route in eine PDF umzuwandeln. Irgendwelche Vorschläge? –

+1

Entschuldigung, habe deine Frage bis vor kurzem nicht gesehen. Ross Moore hat pdftex-Zusätze demonstriert, die die Erzeugung von PDFs ermöglichen, bei denen die Mathematik mit dem Tex-Code markiert ist, der sie erzeugt. Dies ist ein langer Weg von einer vollständigen Antwort auf die Frage, aber ich denke, es zeigt, dass es möglich ist *. Es gibt mehr, was ich dazu sagen möchte, als in einen Kommentar passt - ich sage nur, dass es eine großartige Masterarbeit machen könnte. –

1

Siehe meine Antwort auf ähnliche Frage (how to turn a DVI to tex?)

zu verstärken - es gibt keine Notwendigkeit für Zeichen in Lesereihenfolge zu sein (ich habe festgestellt, PDFs, wo ein Teil des sdrawkcab sdaer txet (und auf den Koordinaten beruht) . Das ist sehr schwer zu rekonstruieren, wie es auf Font-Metriken abhängen. welche das erschreckende ASCII86-Protokoll verwenden kann.

-1

es mit texmacs arbeiten kann, die einen Import von pDF-Dateien enthalten.

+0

Texmacs ist Abandonware, die nie versucht hat, dieses Problem zu lösen. –

+0

noch habe ich es schon gemacht. – Aif

+0

Erzähl mir mehr! Ich habe Texmacs vor einigen Jahren als übertriebenen Ansatz für ein Problem abgeschrieben, das keine Revolution brauchte. Ich nehme an, du hast eine andere Sichtweise? –

1

der beste Weg für die Daten Bergbau von PDF-Dateien (wegen seines komplizierten Formats) ist zu öffnen sie mit Adobe Illustrator. Dann konvertieren Sie die PDF-Datei in Svg-Datei und verwenden Sie eine Svg-Parser-Bibliothek schreiben einige knifflige Code auf sich.

Ein effizienter svg Parser lib ist batik

(Für Linux ist es ein ganz wenig komplex für pdf zu SVG-Umwandlung: calcmaster.net/personal_projects/pdf2svg/)

PS ich bin versuchen, da eine Menge zu finden, eine Lösung für Ihren zweiten Teil Ihrer Frage , aber ich habe herausgefunden in Bücher wie "Visualisierung von Daten, Ben Fry, O'Reilly" , dass pdf vor allem Adobe PDF ist zu komplex zu analysieren, so statt Verwenden Sie eine Svg-Parser-Bibliothek.

+0

OP hat nach Lösungen für Linux gefragt ... –

1

Inkscape kann PDFs importieren und dann als "LaTeX mit PSTricks-Makros" speichern, was im Wesentlichen durch das Einbetten von PostScript in die LaTeX-Quelle funktioniert. Es ist schwieriger als es wert ist, und die resultierende Latex-Quelle muss vorverarbeitet werden, bevor sie wieder als PDF ausgegeben werden kann.

Wie auch immer, sogar mit einigen hypothetischen PDF zu LaTeX Compiler, würden Sie am besten etwas bekommen, wo die Position und Größe jedes Zeichens oder Wortes getrennt angegeben ist - das Gegenteil von dem, was Sie wollen, was ich vermute wenn ein Nenner die Hälfte eines Bruchteils ist, und nicht eine Zahl unterhalb einer horizontalen Linie.

3

Mit pdftohtml und gnuhtml2latex können Sie Ihre PDF in HTML und Ihre HTML in TEX konvertieren.

In der Tat, Sie machen PDF zu LaTeX Konvertierung in 2 Schritten. Das Ergebnis ist immer noch wie "eine Kuh aus einem Hamburger machen", aber in Kombination mit einigen Cleanup-Skripten kann das Ergebnis ziemlich anständig sein.

Der Blogbeitrag "Rudimentary PDF to LaTeX conversion in Linux" auf GlobalBlindSpot hat ein Beispiel für ein Bash-Skript, das eine .pdf-Datei in eine .tex-Datei und diese wiederum in eine .pdf-Datei konvertiert.

8

Es gibt ein Tool, das PDF-Dateien wie eine OCR liest und versucht, den Latex-Code neu zu erstellen. Es ist fast perfekt und rief "Infty Reader"! Da Latex ziemlich erweiterbar ist, glaube ich nicht, dass es alle ordentlichen Formate richtig macht.

+1

InftyReader ist nur für MS Windows gedacht. –