python - "Adding"Tesseract eng.traineddata 的新字体

据我所知，Tesseract 3.x 带有 6 种英文(如果我错了请纠正我)字体。我需要为更多 5 种字体训练 Tesseract。我只需要大写字母和数字(没有特殊字符或符号)。

我遵循了各种流程，例如: Adding New Fonts to Tesseract 3 OCR Engine

还使用工具来自动化流程，例如 Serak Tesseract Trainer for Tesseract 3.02

为了生成盒子文件，我使用了 QT Box Editor

使用上述工具后，我得到了 eng.traineddata 文件。所有教程都告诉我将这个 eng.traineddata 文件添加到 Tesseract-OCR\tessdata 文件夹，但这样做会替换原来的 eng.traineddata 文件。这样做之后我会丢失 Tesseract 3.x 附带的默认字体吗？

如何添加新字体？我还不清楚。我希望有人能在这里帮助我。谢谢。

最佳答案

应使用不同的名称，例如 eng1.traineddata。这样您就可以通过指定语言选项 -l eng+eng1 将新数据与原始数据一起使用。

关于python - "Adding"Tesseract eng.traineddata 的新字体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16332986/

上一篇：python - Numpy、Pandas 和 Sklearn 中的多维缩放拟合(ValueError)

下一篇：python - 用于对抗 "Not Responding"阻塞的多处理 GUI 模式

相关文章：

python - Tensorflow，如何存储变量？

php - 对非常相似的图像进行排序 PHP OCR

java - 如何使用java中的OCR识别来自表单不同字段的表单数据？

匹配所有内容的python列表

python - 通过垂直拆分文本文件创建列表

java - Java : compiling tesseract on Windows 64-bit 的 OCR 库

image-processing - 绘图数字化-从图形图像中抓取样本值

ocr - 调整 tesseract 以更好地检测图像中的 URL

ios - Tesseract OCR w/iOS & Swift 返回错误或乱码

python - CherryPy SSL 链式证书