Gibt es ein Paket/eine Bibliothek für Python, mit dem ich ein PDF öffnen und den Text nach bestimmten Wörtern durchsuchen kann?Text-Mine PDF-Dateien mit Python?
5
A
Antwort
11
Mit PyPdf2 können Sie extractText() Methode verwenden, um PDF-Text zu extrahieren und daran zu arbeiten.
Update: Geänderter Text für PyPdf2, dank @Aditya Kumar für Heads-up.
4
Ich glaube nicht, dass Sie es in einem Schritt tun können, aber Sie können sicherlich den Text aus einem PDF mit pdfminer bekommen. Dann können Sie jede Textsuche auf diese wiederhergestellten Daten anwenden.
@cartman: Haben Sie eine Idee, wie Sie mit der Tatsache arbeiten können, dass PyPdf keinen Abstand zwischen den Zeilen gibt? Zum Beispiel, wenn eine Zeile in der pdf 'Hallo' sagt und dann die nächste Zeile 'Welt' sagt, ist der Text, den ich extrahiere, 'Helloworld' anstelle von 'Hallo Welt', was jeden Textminenerfinder ... – sepiroth
Wenn ich Beachten Sie, dass PyPdf einige Zeilenumbrüche in einigen PDFs als '\ x00' liest. – PhilS
+1 für pyPdf: Es ist ein _sehr_ handliches Modul, auch wenn es für 2.6 etwas veraltet ist (die Quellen sind sowieso verfügbar, es sind nur ein paar Anpassungen). – RedGlyph