2016-03-31 11 views
0

I tessnet2 (tesseract-ocr) in C# auf folgendes Bild bin mit zu verbessern:Tessnet2 (Tesseract) Rückkehr ist nicht die richtigen Ergebnisse - Wege Ausgabe

Sample text image

Dies ist mein Code:

var image = new Bitmap(@"D:\anuj\a2.jpg"); 
ocr.Init(@"D:\anuj\OCRTest\tessdata", "eng", false); 
var result = ocr.DoOCR(image, Rectangle.Empty); 
foreach (Word word in result) 
    Console.Write("{0} ", word.Text);      
Console.ReadLine(); 

die Ausgabe gibt: Icurumcretz j

Was Wege sind richtige Folge Text als Probe im erhalten Das Alter ist ziemlich klar und von guter Auflösung und gibt immer noch keinen richtigen Text. Welche Parameter müssen definiert werden, um das richtige Ergebnis zu erhalten? Bitte antworte.

Antwort

0

Sie sollten versuchen, und einige Bildverarbeitung auf Ihrem Bild, um Ihre Ausgabe von Tesseract zu verbessern. OpenCV (EmguCV für C# ich denke) Bibliotheken können Ihnen helfen, einige dieser Bildverarbeitungsmethoden zu machen. Ich habe einen kleinen MedianBlur auf dem Bild verwendet, um das Rauschen zu reduzieren und ein binäres Bild daraus zu machen.

Segmented Image

Testing dieses Bild mit tesseract gibt mir die folgende Ausgabe: laurumoretz und einige Kauderwelsch auf der nächsten Zeile, weil ich nicht kleine Kleckse (Zeichen aus dem Aufkleber mit den Telefonnummern) entfernt habe. Es geht also um eins, aber ich habe keine Korrektur verwendet, um den Text vollständig in der Luft erscheinen zu lassen.

Ich hoffe, dies wird Ihnen ein bisschen eine Idee geben, wie Sie die Leistung von Tesseract-ocr verbessern können.