python - 如何从内存中向 Tesseract 提供图像

标签 python performance tesseract wand

我正在使用 Tesseract 对数百万个 PDF 进行 OCR，并且我正试图尽可能地提高性能。

我当前的管道使用 convert将 PDF 转换为 PNG 文件(每页一个)，然后在每个文件上使用 Tesseract。

在分析期间，我发现很多时间都花在将文件写入磁盘，然后再次读取它们上，因此我想将所有这些都移到内存中。

我已经在内存中进行了 PDF 到 PNG 的转换，所以现在我需要一种方法将内存中的 blob 传递给 Tesseract，而不是给它一个文件路径？我找不到任何文档或示例？

最佳答案

您可以使用 pytesseract .它是 Google Tesseract 的 Python 包装器。

用法:

image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")

关于python - 如何从内存中向 Tesseract 提供图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39110300/

上一篇：python - Pandas :来自数据框的订单值

下一篇：python - Python 中的 Matlab 转换

相关文章：

python - 带有值的多索引数据框的字典列表列表

java - 如何让一个线程加入另一个线程但只等待 n 秒的 CPU 时间？

python - 在 virtualenv 中安装 psycopg2 (Ubuntu 10.04, Python 2.5)

python - 将二维数组转换为嵌套字典

asp.net - postgresql 可以扩展到 sql server 吗？容易调整吗？

python - 从图像中提取文本

java - 如何区分可搜索的 pdf 和不可搜索的 pdf？

matlab - Matlab 是否有内置的 OCR 库或工具包？

python - 如何正确重命名文件夹？

c - "Tournament"的更好算法