Ich versuche, die Hyperlink-Informationen aus einer PDF-Datei mit PDFBox zu extrahieren, aber ich bin nicht sicher, wieWie Hyperlink-Informationen extrahieren PDFBox
for(Object p : pages) {
PDPage page = (PDPage)p;
List<?> annotations = page.getAnnotations();
for(Object a : annotations) {
PDAnnotation annotation = (PDAnnotation)a;
if(annotation instanceof PDAnnotationLink) {
PDAnnotationLink link = (PDAnnotationLink)annotation;
System.out.println(link.toString());
System.out.println(link.getDestination());
}
}
}
bekommen ich die URL des Hyperlinks Ziel extrahieren möchten und den Text der Hyperlink. Wie kann man das machen?
Dank
Dieses Stück Code schön extrahiert die externen Links auf der PDF. Aber es scheint, als würde es keine Links zu internen Seiten extrahieren. Als Beispiel, auf der dritten Seite meines PDFs, enthält es einen Link zu Seite 10. Ich muss diese Information auch bekommen. Irgendeine Idee, wie es geht? –
@ShiranSEkanayake Bitte schauen Sie sich die andere Antwort an. Der untere Teil (mit PDPageDestination) sollte tun, was Sie wollen. Ich habe es nicht getestet, aber es sieht gut aus. –
Danke. Es klappt!! –