Ich bin sehr neu in OCR und weiß fast nichts über die Algorithmen zur Erkennung von Wörtern. Ich werde mich gerade erst daran gewöhnen.Was ist die typische Methode, um verbundene Buchstaben in einem Wort mit OCR zu trennen
Könnte jemand bitte auf die typische Methode zur Erkennung und Trennung einzelner Zeichen in verbundener Form hinweisen (ich meine in einem Wort, wo alle Buchstaben miteinander verbunden sind)? Vergessen Sie die Handschrift, wenn man annimmt, dass die Buchstaben mit einer bekannten Schriftart verbunden sind. Was ist die beste Methode, um jedes einzelne Zeichen in einem Wort zu bestimmen? Wenn Zeichen getrennt geschrieben werden, gibt es kein Problem, aber wenn sie zusammengefügt werden, sollten wir wissen, wo jedes einzelne Zeichen beginnt und endet, um zum nächsten Schritt zu gehen und sie individuell mit einem Buchstaben zu vergleichen. Gibt es einen bekannten Algorithmus dafür?
Tesseract ist wahrscheinlich nicht in der Lage, verbundene Skripte wie Arabisch zu behandeln. Es braucht einige spezialisierte Algorithmen, um diesen Fall zu behandeln, und im Moment hat er sie nicht. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract – Meysam
Fair genug. Ich nahm an, du sprichst davon verbundenes Englisch (ir Cursive). Hoffentlich sind die Ideen aber nützlich. Ich werde eine weitere Antwort für Arabisch hinzufügen. –