Wie extrahieren Schriften PDDocument in PDFBox 2.0.2

Ich habe gesehen, wie dies wie unten in früheren Versionen zu tun:Wie extrahieren Schriften PDDocument in PDFBox 2.0.2

How to extract font styles of text contents using pdfbox?

Aber ich denke, die getFonts() -Methode nun entfernt wurde. Ich möchte eine Karte von Texten zu Schriftarten (Map<String, PDFont>) in der neuen Version von PDFBox abrufen, aber ich habe keine Ahnung, wie.

Dank

Kabeer

Quelle

2016-07-14 kabeersvohra

tun:

PDDocument doc = PDDocument.load("C:/mydoc3.pdf"); 
for (int i = 0; i < doc.getNumberOfPages(); ++i) 
{ 
    PDPage page = doc.getPage(i); 
    PDResources res = page.getResources(); 
    for (COSName fontName : res.getFontNames()) 
    { 
     PDFont font = res.getFont(fontName); 
     // do stuff with the font 
    } 
}

Quelle

2016-07-14 08:57:20

Ich tat dies, aber es hat nicht die entsprechende Zeichenfolge mit ihm verbunden – kabeersvohra

So kann ich nicht wissen, welchen Text die Schriftart – kabeersvohra

Sie für eine 2.0.2 Antwort auf die Frage in http gefragt verwandt ist: //stackoverflow.com/questions/6939583/how-to-extract-font-styles-of-text-contents-using-pdfbox. Es gibt keine direkte Möglichkeit zu wissen, mit welchem Text es verwandt ist; Wie auch immer Sie das Beispiel PrintTextLocations.java nehmen können, das TextPosition-Objekt hat eine getFont() -Methode, d. h. Sie erhalten die Schriftart für jedes extrahierte Zeichen. –

Für PDFBox 2.x den überarbeiteten Code für die Antwort, die Sie Anbindung an ist

PDDocument doc = PDDocument.load("C:/mydoc3.pdf"); 
for(PDPage page : doc.getPages()){ 
    // get the names of the fonts in the resources dictionary 
    Iterable<COSName> iterable = page.getResources().getFontNames(); 
    // to get the font for each item call 
    // page.getResources().getFont(COSName name); 
}

Quelle

2016-07-14 09:07:41

Ich weiß, wie dies zu tun, aber Iterable ist nicht die gewünschte Ausgabe, so dass dies nicht hilft – kabeersvohra

@ KVohra95 seine Antwort war ähnlich wie bei mir, gibt es keine Notwendigkeit, zu downvote. –

@TilmanHausschreiter Ich habe die Antwort nicht runtergesetzt – kabeersvohra

Dieser ist Schriftart der PDF-Datei mit Hilfe von pdfbox 2.0.6 extrahieren.

import java.io.File; 
import java.util.List; 
import java.util.Map; 
import org.apache.pdfbox.cos.COSName; 
import org.apache.pdfbox.pdmodel.PDDocument; 
import org.apache.pdfbox.pdmodel.PDPage; 
import org.apache.pdfbox.pdmodel.PDResources; 
import org.apache.pdfbox.pdmodel.font.PDFont; 
public class PDFFontExtractor { 
    public static void main(String args[]) 
    { 
     try 
     { 
      PDDocument pddDocument = PDDocument.load(new File("C:\\Users\\Desktop\\sample1.pdf")); 
      for (int i = 0; i < pddDocument.getNumberOfPages(); ++i) 
      { 
       PDPage page = pddDocument.getPage(i); 
       PDResources res = page.getResources(); 
       for (COSName fontName : res.getFontNames()) 
       { 
        PDFont font = res.getFont(fontName); 
        System.out.println("FONT :: "+ font); 
       } 
      } 
     } 
     catch(Exception ex) 
     { 
      ex.printStackTrace(); 
     } 
    } 
}

Quelle

2017-09-14 05:37:16

Was genau fügt deine Antwort zu Tilmans und Maruans Antworten hinzu? – mkl

Wie extrahieren Schriften PDDocument in PDFBox 2.0.2

Antwort

Verwandte Themen