python - Tesseract - 将多个单词图像格式化为一张 OCR 图像的最佳方法

标签 python ocr tesseract python-tesseract

我有一系列图像,每个图像都包含一个单词。我不想分别在所有图像上运行 pytesseract OCR(效果很好),而是想将图像编译成一个大图像并在其上运行 pytesseract OCR(以降低运行时间)。

格式化图像以获得最佳结果的最佳方法是什么? (即:它们应该水平排列、垂直排列、困惑排列等)

另外,最好的页面分割模式是什么?

我尝试过水平连接图像,然后使用 PSM 7(将图像视为单行文本),但是,这并没有产生与使用 PSM 8 在每个单独的单词图像上运行 pytesseract OCR 一样好的结果(将图像视为单行文本)图像作为单个单词)。

最佳答案

pytesseract 正在包装 tesseract 可执行文件,因此它 wrote each image to disk还有read output from disk 。 tesseract 可执行文件的每次启动都会导致 api 的初始化(例如从磁盘读取训练数据)。

如果您要 OCR 大型文本/图像,这可能不是一个大问题,但如果您有大量短文本图像(例如单词),那就是时间/性能的浪费。 考虑通过 cffi 或 ctype 在 python 中使用 tesseract C-API。请参阅recent example in tesseract user forum .

关于python - Tesseract - 将多个单词图像格式化为一张 OCR 图像的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55485018/

相关文章:

python - 如何从存在轻微背景的图像中提取文本?

python - 在 Heroku 上使用 Tesseract 和 Django

python - 发现蓝牙设备 IOError : The RPC server is unavailable

c# - 为单个字符/字形 (OCR) 实现模板匹配

cocos2d-iphone - Cocos2d 手写识别....如何...?

c# - Tesseract (OCR) 的特殊字符白名单

c++ - 如何从图像中分离噪声和文本以进行 OCR 预处理

python - Google Chrome 和 selenium webdriver 无法按预期工作

python - 如何在 Python 中解析 RSS feed 中的 HTML 标签

python - 设置 FLASK_DEBUG=1 不适用于 Powershell