2016-03-22 18 views
0

Ich versuche, einige Tabellen aus PDF-Dateien zu extrahieren, und beide Tools (Abbyy und Omnipage) können die Tabellen recht gut identifizieren. Aber wenn es darum geht, die Zeilen und Spalten zu identifizieren, machen beide die gleichen Fehler.Kann man beim Konvertieren von PDF nach Excel mit Omnipage oder Abbyy Finereader die Aufteilung einzelner Zellen verhindern?

Normalerweise tritt das Problem auf, wenn sie eine Teilzeile erstellen und nur eine Zelle horizontal teilen, aber nicht die anderen. Für ein Beispiel, was ich meine, siehe das beigefügte Bild. In der Spalte auf der linken Seite sind einige der Zellen in zwei Hälften geteilt, was es schwierig macht, in Excel mit der Tabelle zu arbeiten.

Ich finde es seltsam, dass diese Programme dies in erster Linie tun, da Tabellen mit geteilten Zellen immer ein Schmerz sind.

Gibt es eine Möglichkeit, diesen Programmen zu sagen, dass sie nur ganze Spalten und Zeilen setzen und keine einzelnen Zellen teilen sollen?

Irgendwelche Vorschläge für andere Lösungen?

enter image description here

+0

Sie versuchen, die OCR aus Ihrer Anwendung zu automatisieren oder nach einer Endbenutzeranwendung zu suchen? Wenn letzteres besser ist als bei Stackexchange –

Antwort

1

ABBYY viele OCR-Produkte hat, werden die konfigurierbaren diejenigen Finereader Engine und Flexilayout Studio genannt. Andere ABBYY-Produkte verfügen nicht über die erforderlichen Einstellungen.

+0

Danke. Sehr hilfreich. Ich war mir dieser Produkte nicht bewusst. – mgalka