2016-05-26 5 views
-1

In einer meiner NLP-Aufgaben muss ich PDF-Dateien lesen und daraus Informationen extrahieren. Mit Java kann ich den Textinhalt aus PDF lesen und meine NLP-Algorithmen auf den Text anwenden, aber ich muss auch Informationen aus Tabellen in PDF extrahieren, ich versuche, sie zu lesen, aber nicht in der Lage, sie richtig zu bekommen Format. Irgendeine Idee, wie ich Tabellen vom PDF-Dokument lesen kann, oder irgendeinen Hinweis, wenn irgendeine Bibliothek in OpenNLP, GATE, Stanford NLP verfügbar ist, um diese zu erreichen.Lesen von Tabellen und Bildern aus PDF mit beliebigen NLP-Tools

Antwort

1

Leider werden Tabellen als Strukturen nicht in PDFs gespeichert. Sie müssen eine seriöse Koordinatenmathematik anwenden, um herauszufinden, wo sich eine Tabelle befindet, wo sich die Spalten befinden und wo sich die Zeilen befinden.

Für PDFs hat Apache Tika keine spezielle Tabellenbehandlung (für MS Word, MSPPT und viele andere Formate, aber keine PDFs).

Um Tabellen als Tabellen aus PDFs zu extrahieren, könnten Sie folgendes in Betracht ziehen: tabulapdf; siehe auch John Hewson recommendation. Es gibt auch kommerzielle Tools, die wahrscheinlich einen guten Job bei der Tabellenextraktion aus PDFs machen - Abby Finereader, Nuance * PDF-Produkte.

+0

Danke für die Kommentare, ich habe bereits begonnen tabulapdf zu evaluieren, einige Code davon tweeking, in der Lage, Tabelleninhalt, aber nicht in vollem Umfang zu bekommen. Wird nach und nach aktualisiert. – Nitin