java - 如何将 tess4j 版本 4.1.* 中的字符列入白名单

目标是从图像中读取数字特定数据 (1,2,...,9,0)。为此，我使用 Tess4j 版本 4.1.1。

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.1.1</version>
</dependency>

我的示例代码如下所示:

ImageIO.read(new File("c:\\temp\\number1.jpg"));
ITesseract instance = new Tesseract();
instance.doOCR(img);

但由于某种原因，它会将某些数字误识别为字母。因此，为了最大限度地减少错误，我只需要将数字列入白名单。

因为这在早期的 Tess4j 版本(3.0.**)中是可能的，TessBaseAPI ，但在当前的 4.1.* 版本中它不可用。有人可以帮我解决一下如何在 TessAPI 4.1.* 及更高版本中设置白名单字符吗？

最佳答案

自 Tesseract 4.00-alpha 以来，该功能已被破坏。目前尚未修复。

https://github.com/tesseract-ocr/tesseract/issues/751

关于java - 如何将 tess4j 版本 4.1.* 中的字符列入白名单，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51697615/

上一篇：java - 一种三维数据结构，用于保存项目之间的位置关系

下一篇：java - Intellij idea libgdx java lambda 表达式在源代码中不受支持

python - pytesseract : FileNotFound

安卓NDK : iostream file not found

java - getNextEntry() 不将文件夹显示为条目？

java - 对 Closable 对象正确使用 close() 和 = null

Java 的多个同步块(synchronized block)

java - 如何验证 Java Card 上的证书有效性？

text - 如何将带圆圈的数字转换为数字？ (① 到 1)

c# - Azure 认知服务上的文本识别

ocr - Tesseract OCR 训练出现 'APPLY_BOXES' 错误