Python Version 2.7Extrahieren von Text aus einer PDF-Datei mit PDFMiner in Python?
Ich suche Dokumentation oder Beispiele zur Eingabe von Text aus einer PDF-Datei mit Python PDFMiner zu extrahieren.
Offenbar hat PDFMiner ihre API aktualisiert und alle relevanten Beispiele, die ich gefunden habe, enthalten veralteten Code (Klassen und Methoden haben sich geändert). Die Bibliotheken, die ich gefunden habe, die die Aufgabe erleichtern, Text aus einer PDF-Datei zu extrahieren, verwenden die alte PDFMiner-Syntax, so dass ich mir nicht sicher bin, wie das geht.
So wie es ist, schaue ich nur auf Quellcode, um zu sehen, ob ich es herausfinden kann.
Bitte beachten Sie auch http://stackoverflow.com/help/how-to-ask und http://stackoverflow.com/help/mcve und aktualisiere deine Antwort so, dass sie in einem besseren Format ist und den Richtlinien entspricht. – Parker
Welche Python-Distribution verwenden Sie, 2.7.x oder 3.x.x? Es sei darauf hingewiesen, dass der Autor explizit * ausführte, dass 'PDFminer' nicht mit Python 3.x.x funktioniert. Das könnte der Grund sein, dass Sie "Import" -Fehler bekommen. Sie sollten 'pdfminer3k' verwenden, wenn dies der Fall ist, da es sich um den Python 3 Import dieser Bibliothek handelt. – Manhattan
@Nanashi, sorry, ich habe vergessen, meine Python-Version hinzuzufügen. Es ist 2,7, also ist das nicht das Problem. Ich habe den Quellcode durchgesehen und es sieht so aus, als hätten sie einige Dinge umstrukturiert, weshalb die Importe kaputt gehen. Ich kann auch keine Dokumentation für PDFMiner finden oder ich würde nur davon arbeiten :( – DuckPuncher