ocr - Tesseract 培训 - 只有数字的新字体

您好，我尝试根据以下数字为新字体训练 tesseract:
所有数字都在具有透明背景的 png 文件中提供。如果我从它创建一个盒子文件，训练它等等 - 一切正常!
现在的问题，同样的情况，但我想根据下图训练 tesseract:
如您所见，数字以及位置等完全相同。与图 1 的唯一区别是我使用了黄色背景，从现在开始没有任何工作了。我创建了一个盒子文件，我设置了与第一张图像相同的位置:

0 5 4 20 22 0
1 27 4 38 21 0
2 48 4 60 22 0
3 71 3 83 22 0
4 94 5 109 22 0
5 119 5 131 22 0
6 143 5 157 22 0
7 172 5 184 22 0
8 197 5 211 23 0
9 224 5 238 22 0

好吧，然后我训练了盒子，但是生成的 .tr 文件完全是空的，我没有在这里停下来并完成所有其他步骤。生成的字体无法使用!
所以我的问题是如何训练 tesseract 来识别这些数字，无论它们使用哪种背景？
编辑 2016-04-16:
我用过 ImageMagick预处理图像，我发现了一个适用于各种背景的命令。所以我想为这个创建的图像训练 tesseract，但它不像我想象的那样工作......
首先，我创建了 box 文件，其中大部分都是空的。嗯，我用一个网站来组织角色位置，我花了很多时间来完美地裁剪!之后我创建了生成的 .tr 文件，并做了其他事情来训练 tesseract。
最后我得到了“traineddata”，我将文件移动到 tesseract 的“tessdata”目录并像使用它一样使用它:

tesseract example.jpg output -l mg

(我称新字体为“mg”)
好吧，无论它不能识别全部或大部分!我打开这个线程寻求帮助，直到现在没有人真正知道如何做到这一点，可悲的是......请帮帮我。
我使用和创建的整个 tesseract 训练文件，你可以在这里找到:
Tesseract training directory (因为没有 zip/未压缩 -> 查看目录的所有文件)

最佳答案

您可以将任何彩色图像更改为二进制图像，然后在其上使用 tesseract，这样无论您使用什么颜色，您都将始终获得相同的结果。

关于ocr - Tesseract 培训 - 只有数字的新字体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36239074/

ocr - Tesseract 培训 - 只有数字的新字体

上一篇：oracle - 压缩Oracle表

下一篇：ruby-on-rails - 根据 Rails 中的 has_many 关系计数选择流行模型