2016-03-30 5 views
2

Wie MNIST-Datensatz zu 0-9, möchte ich ein handgeschriebenes Dokument in eine Word-Datei verwandeln. Das Problem besteht darin, dass sich alle Zeichen in einem Dokument im Gegensatz zum MNIST-Dataset auf demselben Bild befinden. Wie sollte ich das angehen, um ein einzelnes Zeichen in einem Bild wie mnist zu erhalten und einem Klassifizierer zuzuführen? Ich bin ziemlich gut mit Deep Learning sowie einige ML-Klassifikatoren.Wie man OCR handschriftliches Dokument mit tiefem Lernen nähert?

Wie kann ich jedes Zeichen ausschneiden und an meinen DNN füttern?

oder gibt es einen besseren Weg?

Antwort

0

Wenn die Ziffern im Bild nicht zusammenhängend sind, können Sie die Analyse der verbundenen Komponenten (z. B. http://homepages.inf.ed.ac.uk/rbf/HIPR2/label.htm) verwenden, um die Bildteile in Ziffern zu trennen.

Sie müssten die Ziffer auch skalieren und zentrieren, damit sie dem Format der Ziffern entspricht, die zum Trainieren des Klassifikators verwendet wurden.

Wenn die Ziffern jedoch nicht getrennt sind, müssen Sie Segmentierungsalgorithmen verwenden, wodurch das Problem auf ein neues Niveau gehoben wird, das einige Erfahrung in diesem Bereich erfordert. Sie können damit beginnen, einige Papiere zu betrachten: https://www.google.com/search?q=handwritten+digits+segmentation