Ich habe eine Reihe von PDFs, die ich in Text konvertieren möchte. Es ist einfach, den Text mit so etwas wie diesem von iTextSharp zu bekommen:C# Pdf zu Text mit Bild Platzhalter
PdfTextExtractor.GetTextFromPage(reader, pageNumber);
Es ist einfach, Bilder mit this answer (oder ähnlichen Antworten im Thread) zu erhalten.
Was ich nicht leicht herausfinden kann ... ist, wie Bild Platzhalter im Text verschachtelt werden.
eine PDF, eine Seite # und GetTextFromPage
ich die Ausgabe zu erwarten Gegeben:
line 1
line 2
line 3
Als ich es (Wo 1.1 bedeutet, Seite 1, Bild 1 ... Seite 1 sein möchte, Bild 2):
line 1
[1.1]
line 2
[1.2]
line 3
gibt es eine Möglichkeit, einen „Bild-Platzhalter“ für iTextSharp, PDFsharp oder ähnliches zu bekommen? Ich hätte gerne eine GetTextAndPlaceHoldersFromPage
Methode (oder ähnliches).
PS: Hrm ... es lässt mich nicht iTextSHARP - nicht iText. C# nicht Java.
Suchen Sie so etwas wie die Lösung für iText/Java in [dieser Antwort] (http://stackoverflow.com/a/28087521/1729265)? Es sollte leicht in iTextSharp/C# übersetzt werden. – mkl
@mkl aktualisierte Erklärung, um diese Frage näher zu entsprechen. Ich dachte darüber nach, mich ein bisschen wie gestern Abend auszudehnen. Diese Frage ist im Grunde genommen die gleiche, außer dass ich in C# mit iTextSharp arbeite (obwohl ich nicht abgeneigt bin, wenn nötig in andere Bibliotheken wie PdfSharp zu wechseln). – WernerCD
So könnte man erstellen, was Sie wollen, indem Sie die iText/Java-Lösung von dieser alten Frage zu iTextSharp/C# portieren. Das sollte nicht zu schwer sein ... – mkl