我正在使用 Tesseract,但我不知道它是否忽略任何非文本区域并仅针对文本。我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出?
最佳答案
Tesseract 有一个非常好的算法来检测文本,但它最终会给出误报匹配。
理想情况下,您可以在将图像提交到 tesseract 之前对其进行预处理。前段时间我也从事过类似的工作,所以我建议你看一下以下 Material :
关于image-processing - Tesseract 是否会忽略扫描文档中的任何非文本区域?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10193816/