pattern-matching - 使用预定义的字体图像训练 "tesseract ocr"

标签 pattern-matching ascii ocr tesseract training-data

我正在尝试对图像中的 ASCII 字符串进行 OCR 识别。我正在使用 Tesseract3 库,但是我在正确识别方面遇到了一些问题,因此我需要使用新字符集(这是特定的)对其进行训练。
我已经发现了这个操作方法:TrainingTesseract3 ,但是教程有一些我不需要的不必要的程序,因为我的图像测试集很简单。
我的图像数据集仅包含 1 衬垫 ,其中每个 ASCII 字符是 在所有图像中(无旋转,无缩放),但行中字符之间的距离可变(仅水平)。

如何使用字体图像来训练识别算法?

最佳答案

先生只需获取您想要训练的特定字体,然后在记事本中写下字母或数字(我认为 5 个代表/字母)另存为 tiff 文件。如果您想训练它,请使用此 https://code.google.com/p/serak-tesseract-trainer/ 中的任何一个或 http://vietocr.sourceforge.net/training.html .

关于pattern-matching - 使用预定义的字体图像训练 "tesseract ocr",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24063870/

相关文章:

jquery - 请帮我用 jquery 替换字符串模式

windows - 串口数据损坏的异常模式

java - 如何使用 openCV 或 OCR tesseract 从图像中提取文本?

c# - 适用于 Windows Phone 8 的 OCR API

OCR 和文字审查

scala - 获取模式匹配中默认情况的类型

pattern-matching - Racket 图案搭配套装

c# - 当不是 8 位 char 时,使用零填充将字符串转换为 C# 中的二进制序列

bash 不显示 126 以上的扩展 ASCII 字符

regex - Racket 模式匹配做非贪婪匹配