ocr - 你能用图像而不是文本和字体来训练 tesseract 吗?

标签 ocr tesseract training-data

在超立方体中 documentation解释了使用示例文本和字体进行训练的方法。
我使用了 jTessBoxEditor,但它的工作原理与 tesseract 训练工具非常相似。
我得到了一些可以接受的结果,但我想最佳解决方案是使用它必须识别的实际图像类型来训练 tesseract。
因为我只需要识别数字,我可以手动切割每个数字,也许每个数字的多个版本,并用这些图像训练 tesseract,甚至手动设置框。
有没有办法做到这一点?

最佳答案

如果你想训练tesseract4,你可以使用ocrd-train
您基本上准备与每行文本相对应的图像及其基本事实,它将为您完成所有剩余的工作。

关于ocr - 你能用图像而不是文本和字体来训练 tesseract 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48970568/

相关文章:

image-processing - Tesseract box 文件中的数字是多少?

Tensorflow Keras 形状不匹配

python - Classifier.fit for oneclassSVM 提示 float 类型。 TypeError float 是必需的

ocr - 在 Tesseract 训练中向现有字体添加字符

java - 在 Tomcat 上使用 Tess4J

python - 如何从图像中准确提取数据?使用 PyTesseract

iphone - iPhone 版 Tesseract 示例

java - 使用 android vision 文本 OCR 构建名片阅读器

ios - iOS (Swift) 中的 Tesseract - 如何分离 UITextField 中的文本和数字?

python - 训练 uNet 模型预测只有黑色