pattern-matching - 使用预定义的字体图像训练 "tesseract ocr"

标签 pattern-matching ascii ocr tesseract training-data

我正在尝试对图像中的 ASCII 字符串进行 OCR 识别。我正在使用 Tesseract3 库，但是我在正确识别方面遇到了一些问题，因此我需要使用新字符集(这是特定的)对其进行训练。
我已经发现了这个操作方法:TrainingTesseract3 ，但是教程有一些我不需要的不必要的程序，因为我的图像测试集很简单。
我的图像数据集仅包含 1 衬垫 ，其中每个 ASCII 字符是同在所有图像中(无旋转，无缩放)，但行中字符之间的距离可变(仅水平)。

如何使用字体图像来训练识别算法？

最佳答案

先生只需获取您想要训练的特定字体，然后在记事本中写下字母或数字(我认为 5 个代表/字母)另存为 tiff 文件。如果您想训练它，请使用此 https://code.google.com/p/serak-tesseract-trainer/ 中的任何一个或 http://vietocr.sourceforge.net/training.html .

关于pattern-matching - 使用预定义的字体图像训练 "tesseract ocr"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24063870/

上一篇：sql - 使用UNION时，是否保证SQL查询可以原子执行？

下一篇：jupyter-notebook - 列出 jupyter 实验室的运行实例

相关文章：

jquery - 请帮我用 jquery 替换字符串模式

windows - 串口数据损坏的异常模式

java - 如何使用 openCV 或 OCR tesseract 从图像中提取文本？

c# - 适用于 Windows Phone 8 的 OCR API

OCR 和文字审查

scala - 获取模式匹配中默认情况的类型

pattern-matching - Racket 图案搭配套装

c# - 当不是 8 位 char 时，使用零填充将字符串转换为 C# 中的二进制序列

bash 不显示 126 以上的扩展 ASCII 字符

regex - Racket 模式匹配做非贪婪匹配