Text-Mine PDF-Dateien mit Python?

Gibt es ein Paket/eine Bibliothek für Python, mit dem ich ein PDF öffnen und den Text nach bestimmten Wörtern durchsuchen kann?Text-Mine PDF-Dateien mit Python?

Quelle

2009-11-04 sepiroth

Mit PyPdf2 können Sie extractText() Methode verwenden, um PDF-Text zu extrahieren und daran zu arbeiten.

Update: Geänderter Text für PyPdf2, dank @Aditya Kumar für Heads-up.

Quelle

2009-11-04 07:39:34 ismail

@cartman: Haben Sie eine Idee, wie Sie mit der Tatsache arbeiten können, dass PyPdf keinen Abstand zwischen den Zeilen gibt? Zum Beispiel, wenn eine Zeile in der pdf 'Hallo' sagt und dann die nächste Zeile 'Welt' sagt, ist der Text, den ich extrahiere, 'Helloworld' anstelle von 'Hallo Welt', was jeden Textminenerfinder ... – sepiroth

Wenn ich Beachten Sie, dass PyPdf einige Zeilenumbrüche in einigen PDFs als '\ x00' liest. – PhilS

+1 für pyPdf: Es ist ein _sehr_ handliches Modul, auch wenn es für 2.6 etwas veraltet ist (die Quellen sind sowieso verfügbar, es sind nur ein paar Anpassungen). – RedGlyph

Ich glaube nicht, dass Sie es in einem Schritt tun können, aber Sie können sicherlich den Text aus einem PDF mit pdfminer bekommen. Dann können Sie jede Textsuche auf diese wiederhergestellten Daten anwenden.

Quelle

2009-11-04 07:38:39 shylent

Antwort

Verwandte Themen