Text Mining Ausgabe: aus dem Abschnitt Titel, Bildunterschriften und anderswo in vielen PDF-Dateien erhalte ich Sätze wie:perl regex zu entfernen, um Speicherplatz von Text OCR importiert von pdftotext
"T h e n as data we give the t r a j e c t o r i e s o f the particles between ..."
ich denke, dies eine OCR ist Problem mit pdftotext.
I kann Leerzeichen in gappy Text entfernen nur mit einer verketteten regexp Sequenz, die ersten Leer erhöht, aber dies beruht auf Wortgrenzen im ursprünglichen OCR Text wobei zumindest zweizeilig. Hier ist ein einfacher Test:
$ perl -e '$t="The \ \ \ \ t h i n g w r o n g h e r e is we have a gap s."; print "$t\n";
$t=~s/(\s{2,})/$1 /g; print "$t\n";
$t=~s/(\w)\s?/$1/g; print "$t\n";
$t=~s/\s+/ /g; print "$t\n";'
The t h i n g w r o n g h e r e is we have a gap s.
The t h i n g w r o n g h e r e is we have a gap s.
The t h i n g w r o n g h e r e is we have a gap s.
The thing wrong here is we have a gap s.
The thing wrong here is we have a gap s.
der Endsatz Zeitraum "Lücke s." ist absichtlich, sollte es nicht schließen.
Frage 1. Gibt es eine elegantere Reihe von Regex's, um dies zu tun?
Frage 2. Was kann man mit dem OCR Text Dump machen, der nur einen Zeilenabstand hat? Ich nehme an, dass man das nur allgemein lösen kann, um den Text des Formulars zu bereinigen: "Als Daten geben wir die Trajektorien der Partikel zwischen ..." , wenn die Wortgrenzen nicht klar sind, mit einem Hochleistungsmodul, das nach Wörterbuch sucht Wörter in einer Folge von einzelnen Buchstaben. Gibt es ein solches Modul? (Ich habe gesucht, aber bis jetzt noch keinen gefunden.)
Sie versuchen, natürliche Sprache mit Regexes zu manipulieren. Im besten Fall schwierig und in dem Raum, in dem Sie arbeiten, wahrscheinlich unmöglich. Mit Vorsicht vorgehen, hier gibt es Drachen ... –
http://StackOverflow.com/Questions/1136990/How-Can-I-Extract-text-from-a-pdf-file-in-perl – xxfelixxx
http: // search.cpan.org/~cdolan/CAM-PDF-1.60/bin/getpdftext.pl – xxfelixxx