image-processing - Tesseract 是否会忽略扫描文档中的任何非文本区域?

标签 image-processing ocr tesseract text-extraction

我正在使用 Tesseract,但我不知道它是否忽略任何非文本区域并仅针对文本。我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出?

最佳答案

Tesseract 有一个非常好的算法来检测文本,但它最终会给出误报匹配。

理想情况下,您可以在将图像提交到 tesseract 之前对其进行预处理。前段时间我也从事过类似的工作,所以我建议你看一下以下 Material :

关于image-processing - Tesseract 是否会忽略扫描文档中的任何非文本区域?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10193816/

相关文章:

python-2.7 - 使用Tesseract-OCR和OpenCV的土耳其语字符识别

c# - 如何加速 tesseract OCR

python - 模糊图像的特定部分

asp.net - 在软件中显示太多 'skin'检测

php - imagecreatefromjpeg() 在调整大小时返回黑色图像

java - 使用 Asprise 和 Java 对 PDF 进行 OCR

python - 使用 Tesseract OCR 从表格图像中识别特定数字

python - 提高缩小图像的准确性

Azure 表单识别器对 Office 文档的主线支持

ios - 使用 OpenCV 检测文本 block 发送到 Tesseract iOS