2016-05-22 36 views
0

pdflib ist eine gute Software zur Analyse PDF. Wenn ich es verwende, um Text aus einer PDF zu extrahieren. Wie man Text Satz für Satz extrahiert? Jetzt kann ich nur per Wort, Zeile, Seite extrahieren. Zum Beispiel geben Sie den folgenden Inhalt in PDF:Wie benutze ich pdflib, um Textsatz für Satz zu erhalten?

I want to extract text from pdf 
Sentence by sentence. Is there 
anybody can help? 

das Wort Modus Rückkehr ein Wort jedes Mal (dh mich, wollen; zu; Extrakt ...), die Zeilenmodus Rückkehr eine Zeile jedes Mal (dh I will Text aus pdf extrahieren; Satz für Satz Gibt es da; anyboy kann helfen?). Der Seitenmodus gibt den gesamten Absatz zurück. Was ich will, bekommen, ist Satz jedes Mal (dh mag ich Text aus PDF-Satz für Satz extrahieren; Gibt es jemand helfen?)

Antwort

0

ich die Unterstützung per E-Mail, und die unten ist ihre Antwort:

Hallo ,

Dies ist nicht möglich durch TET. Ich nehme an, Sie beziehen sich auf TET (nicht PDFlib), die ist unser Text-Extraktion-Toolkit.

Um den Inhalt nach Satz abzurufen, müssen Sie einen Postprozess hinzufügen, der das Ende des Satzes bestimmen und dann die Zeichenfolge zurückgeben, wie Sie möchten. Wenn Sie z. B. Granularitätswort verwenden, durchlaufen Sie alle Wörter. Dann kombinieren Sie alle Wörter, bis das Wort s Satzbruch ist. Dann geben Sie die Zeichenfolge zurück. Dies muss jedoch in Ihr Code getan werden.