java - 超立方体边界框问题

标签 java tesseract image-segmentation bounding-box

我的程序解析一行文本。在下图中,我在来自 Tesseract 结果迭代器的每个字符周围绘制了边界框:

Tesseract bounding boxes

显然,Tesseract 在分割行中最后一个字符(“5”)、检测 3 个边界框时存在一些问题。 事实上,最后一个字符比其他字符稍大一些,但是当像素点阈值设置得如此清晰时,为什么 Tesseract 会以如此不同的方式对该字符进行分割呢?

我已经设置了这些 Tesseract 变量:

tess.setVariable("save_blob_choices", "1");
tess.setPageSegMode(PageSegMode.PSM_SINGLE_LINE);
tess.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST, "0123456789"
and textord_min_xheight set to the pixel height of the above image

有什么建议吗?

最佳答案

我没有找到解决这个问题的方法。 Tesseract 的文档记录非常糟糕。

我最终找到了每个字符的轮廓,然后将字符的每个子图像传递给 Tesseract,使用页面分割模式 PSM_SYMBOL。最后,这也比之前的方法快了一倍!

关于java - 超立方体边界框问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20483111/

相关文章:

java - java中的时间和小时

linux - 使用 tesseract v3 通过可搜索文本命令行创建 pdf 文档

C++:调整 Tesseract 以去除噪声元素

matlab - 如何鲁棒地分割图像以正确计算模糊的 Blob ?

java - 导入 Maven 插件

java - maven不使用64位jvm

Android Tesseract 进度回调

matlab - 分割灰度图像

python - 'HOG feature'列表中的每个值指示什么?

java - Kotlin 获取类型为字符串