python - Tesseract - 将多个单词图像格式化为一张 OCR 图像的最佳方法

我有一系列图像，每个图像都包含一个单词。我不想分别在所有图像上运行 pytesseract OCR(效果很好)，而是想将图像编译成一个大图像并在其上运行 pytesseract OCR(以降低运行时间)。

格式化图像以获得最佳结果的最佳方法是什么？ (即:它们应该水平排列、垂直排列、困惑排列等)

另外，最好的页面分割模式是什么？

我尝试过水平连接图像，然后使用 PSM 7(将图像视为单行文本)，但是，这并没有产生与使用 PSM 8 在每个单独的单词图像上运行 pytesseract OCR 一样好的结果(将图像视为单行文本)图像作为单个单词)。

最佳答案

pytesseract 正在包装 tesseract 可执行文件，因此它 wrote each image to disk还有read output from disk 。 tesseract 可执行文件的每次启动都会导致 api 的初始化(例如从磁盘读取训练数据)。

如果您要 OCR 大型文本/图像，这可能不是一个大问题，但如果您有大量短文本图像(例如单词)，那就是时间/性能的浪费。考虑通过 cffi 或 ctype 在 python 中使用 tesseract C-API。请参阅recent example in tesseract user forum .

关于python - Tesseract - 将多个单词图像格式化为一张 OCR 图像的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55485018/

相关文章：

python - 如何从存在轻微背景的图像中提取文本？