ich ein pdf in PDFBox bin Parsen von ihm den ganzen Text zu extrahierenPDFBox gibt nicht richtig Ausgang
public static void main(String args[]) {
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File("C:\\Users\\admin\\Downloads\\Airtel.pdf");
try {
PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(1);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
aber es ist nicht jeden Text in der Ausgabe Hilfe geben
danke .. OCR mit Tess4j wird in Ordnung sein ?? – Mudit
Ich würde auch Tesseract ausprobieren, aber ich habe keine Erfahrungen aus erster Hand damit. – mkl
tesseract, abbyy, asprise alle von ihnen sind in C++ gebaut. Gibt es irgendeine Bibliothek, die rein in Java gebaut ist? – Mudit