iam Tesseract OCR für Deutsch PNG-Bilder in C++ lesen und ich habe Probleme mit einigen Sonderzeichen wieTesseract OCR Deutsche Sonderzeichen
ß ä ö ü und so weiter.
Muss ich Tesseract trainieren, um das Richtige zu lesen oder was muss getan werden?
This is the part of the original image read by tesseract
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
UPDATE
SetConsoleOutputCP(1252);//changed to german.
SetConsoleCP(1252);//changed to german
wcout << "ÄÖÜ?ß" << endl;
// Open input image with leptonica library
Pix *image = pixRead("D:\\Images\\Document.png");
api->Init("D:\\TesseractBeispiele\\Tessaractbeispiel\\Tessaractbeispiel\\tessdata", "deu");
api->SetImage(image);
api->SetVariable("save_blob_choices", "T");
api->SetRectangle(1000, 3000, 9000, 9000);
api->Recognize(NULL);
// Get OCR result
wcout << api->GetUTF8Text());
After changing the Code below the Update die hart codiert Umlaute korrekt dargestellt werden, aber der Text aus dem Bild issnt richtig, was muss ich ändern?
Tesserakts Version ist 3.0.2 leptonica Version ist 1,68
Die Konsole ist fast sicher nicht konfiguriert für UTF-8. – MSalters
Wie würden Sie die Konsole für utf8 konfigurieren? – Cazzador