image-processing - Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract，但我不知道它是否忽略任何非文本区域并仅针对文本。我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出？

最佳答案

Tesseract 有一个非常好的算法来检测文本，但它最终会给出误报匹配。

理想情况下，您可以在将图像提交到 tesseract 之前对其进行预处理。前段时间我也从事过类似的工作，所以我建议你看一下以下 Material :

关于image-processing - Tesseract 是否会忽略扫描文档中的任何非文本区域？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10193816/