Ich versuche, eine PDF-Datei mit Tika.Parse analysieren, wenn ich meine PDF-Datei analysieren, bekomme ich jedes Zeichen getrennt line.Zum Beispiel ist mein pdf-Dateiinhalt "Hello World". Ich erwarte, dass es wie "Hello World" herauskommt, aber ich werde wie folgt ausgegeben.jedes Zeichen in einer separaten Zeile (jedes Zeichen wird in eine neue Zeile) während der Analyse einer PDF-Datei mit Apache Tika
H
e
l
l
o
W
o
r
l
d.
bitte helfen Sie mir, dieses Problem zu lösen.Folgen ist mein Programm.
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.DefaultParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
public class TikaTest {
public static void main(String args[]) {
TikaTest test = new TikaTest();
System.out.println(test.getContent());
}
public String getContent() {
String content = "";
Metadata mData = null;
ContentHandler cHandler = null;
AutoDetectParser adp = null;
try {
InputStream inStream = new BufferedInputStream(new FileInputStream(
"/home/prasad/Desktop/kc/Purchase Order Detail - TEXT.pdf"));
mData = new Metadata();
cHandler = new BodyContentHandler();
adp = new AutoDetectParser();
DefaultParser pdfParser = new DefaultParser();
adp.parse(inStream, cHandler, mData);
content = cHandler.toString();
} catch (Exception e) {
e.printStackTrace();
}
return content;
}
}
Ich habe versucht, das @https://stackoverflow.com/a/27551264/4579100 gegebene Lösung aber immer noch die gleiche Leistung zu bekommen.
Welche Version von Apache Tika nach jedem Zeichen Zeilenendmarke hinzufügen verwenden Sie? Und wenn es nicht das Neueste ist, was passiert beim Upgrade? – Gagravarr
PDF kann jedes Zeichen einzeln liefern (selbstgemachtes Kerning). Dann müssen räumliche Informationen verwendet werden. Habe Tika nicht selbst benutzt. –
Hi @Gagravarr, ich benutze tika-app-1.13.jar – prasad