Ich bin derzeit in Python Codierung und verwaltet, um pdftotext zu verwenden, um den Text aus einer PDF zu extrahieren.Nach der Verwendung von pdftotext: Seite von String aus txt
Diese bestimmte Textdatei ist in eine Liste von Strings aufgeteilt. Durch die Verwendung von regulärem Ausdruck kann ich bestimmte Wörter finden, an denen ich interessiert bin. Der Grund, warum ich den Text in eine Liste aufteile, ist, dass ich die Entfernung zwischen zwei bestimmten Wörtern messen möchte und durch Distanz meine ich die Anzahl der Wörter dazwischen zwei Wörter.
Aber nach dem Finden der Position der Wörter möchte ich in der Lage sein, auf das ursprüngliche pdf zurückzugehen. Im Detail interessiert mich die Seite und vielleicht sogar die Zeile (wenn pdf diese Art von Struktur unterstützt), wo sich diese Wörter befinden.
Eine Idee, die ich habe, ist diesen Prozess für jede Seite der PDF zu tun, wenn ich diese Wörter finde, weiß ich, auf welcher Seite das war. Das hat aber den großen Nachteil, dass Seitenumbrüche nicht unbedingt natürlich sind. Bedeutet, ich würde die Fähigkeit verlieren, die Wörter zu finden, wenn sie leider durch einen Seitenumbruch getrennt sind.
Haben Sie eine Idee, wie Sie das auf raffiniertere Weise tun können?