python - 如何从内存中向 Tesseract 提供图像

标签 python performance tesseract wand

我正在使用 Tesseract 对数百万个 PDF 进行 OCR,并且我正试图尽可能地提高性能。

我当前的管道使用 convert将 PDF 转换为 PNG 文件(每页一个),然后在每个文件上使用 Tesseract。

在分析期间,我发现很多时间都花在将文件写入磁盘,然后再次读取它们上,因此我想将所有这些都移到内存中。

我已经在内存中进行了 PDF 到 PNG 的转换,所以现在我需要一种方法将内存中的 blob 传递给 Tesseract,而不是给它一个文件路径?我找不到任何文档或示例?

最佳答案

您可以使用 pytesseract .它是 Google Tesseract 的 Python 包装器。

用法:

image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")

关于python - 如何从内存中向 Tesseract 提供图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39110300/

相关文章:

python - 带有值的多索引数据框的字典列表列表

java - 如何让一个线程加入另一个线程但只等待 n 秒的 CPU 时间?

python - 在 virtualenv 中安装 psycopg2 (Ubuntu 10.04, Python 2.5)

python - 将二维数组转换为嵌套字典

asp.net - postgresql 可以扩展到 sql server 吗?容易调整吗?

python - 从图像中提取文本

java - 如何区分可搜索的 pdf 和不可搜索的 pdf?

matlab - Matlab 是否有内置的 OCR 库或工具包?

python - 如何正确重命名文件夹?

c - "Tournament"的更好算法