Wir möchten die Adressfelder aus einem Dokument identifizieren. Zur Identifizierung der Adressfelder haben wir das Dokument mit Tesseract in OCR-Dateien konvertiert. Aus der Tesseract-Ausgabe möchten wir überprüfen, ob eine Zeichenfolge das Adressfeld enthält oder nicht. Welches ist die richtige Strategie, um dieses Problem zu lösen?Wie überprüft man, ob eine Eingabezeile eine Adresse enthält oder nicht?
- Es ist nicht möglich, dieses Problem mit der Regex zu lösen, weil Adressfelder unterschiedlich sind für verschiedene Dokumente und Länder
- Versuchen NLTK für die Worte, die Klassifizierung, aber nicht funktionieren perfekt für Adressfeld.
Erforderliche Ausgabe
I am staying at 234 23 Philadelphia - Contains address files <234 23 Philadelphia>
I am looking for a place to stay - Not contains address
Geben Sie Ihre Vorschläge, dieses Problem zu lösen.