2009-11-04 5 views

Antwort

11

Mit PyPdf2 können Sie extractText() Methode verwenden, um PDF-Text zu extrahieren und daran zu arbeiten.

Update: Geänderter Text für PyPdf2, dank @Aditya Kumar für Heads-up.

+0

@cartman: Haben Sie eine Idee, wie Sie mit der Tatsache arbeiten können, dass PyPdf keinen Abstand zwischen den Zeilen gibt? Zum Beispiel, wenn eine Zeile in der pdf 'Hallo' sagt und dann die nächste Zeile 'Welt' sagt, ist der Text, den ich extrahiere, 'Helloworld' anstelle von 'Hallo Welt', was jeden Textminenerfinder ... – sepiroth

+0

Wenn ich Beachten Sie, dass PyPdf einige Zeilenumbrüche in einigen PDFs als '\ x00' liest. – PhilS

+0

+1 für pyPdf: Es ist ein _sehr_ handliches Modul, auch wenn es für 2.6 etwas veraltet ist (die Quellen sind sowieso verfügbar, es sind nur ein paar Anpassungen). – RedGlyph

4

Ich glaube nicht, dass Sie es in einem Schritt tun können, aber Sie können sicherlich den Text aus einem PDF mit pdfminer bekommen. Dann können Sie jede Textsuche auf diese wiederhergestellten Daten anwenden.