Erstens habe ich darüber recherchiert und gefunden, die eng mit Wortgrenzen in einem Satz oder maximal beschäftigen, schlagen die Verwendung von Tokenizern, die nicht das ist, was ich suche. Meine Frage lautet wie folgt:Wie man Wortgrenzen in Rohtext dynamisch vorgibt, während ein Dokument vorverarbeitet wird?
Meine aktuelle Aufgabe Vorverarbeitung einer unstrukturierten Daten bezieht, die diese Pipeline folgen - Konvertierung von PDF zu TXT-Dateien, die wie folgt paar Sätze gibt aus:
se ar chthisstr ing für ein def ect
, was ich will eigentlich ist:
Suche diese Zeichenfolge für einen Defekt
Alles, was ich suche, sind einige mögliche Ansätze für solche Arten von Szenarien in NLP. Vielen Dank im Voraus!
Sie suchen nach einem Tokenizer, auch wenn Sie nicht glauben, dass Sie nach einem Tokenizer suchen. Wenn der Inhalt, den Sie aus dem PDF-Dokument ziehen, einheitlich ein Zeichentrennzeichen verwendet, das nicht mit dem Worttrennzeichen identisch ist, können Sie das ersetzen/entfernen. –
Extrahieren Sie manuell Text aus den PDF-Dateien? Das ist schmerzhaft. Verwenden Sie eine [Bibliothek] (https://pypi.python.org/pypi?%3Aaction=search&term=pdf&submit=search), um die Extraktion durchzuführen. –
Dies gehört wahrscheinlich auf program- ming.stackexchange.com und nur mit einem nlp-Tag. –