我正在使用 Tesseract 对数百万个 PDF 进行 OCR,并且我正试图尽可能地提高性能。
我当前的管道使用 convert
将 PDF 转换为 PNG 文件(每页一个),然后在每个文件上使用 Tesseract。
在分析期间,我发现很多时间都花在将文件写入磁盘,然后再次读取它们上,因此我想将所有这些都移到内存中。
我已经在内存中进行了 PDF 到 PNG 的转换,所以现在我需要一种方法将内存中的 blob 传递给 Tesseract,而不是给它一个文件路径?我找不到任何文档或示例?
最佳答案
您可以使用 pytesseract .它是 Google Tesseract 的 Python 包装器。
用法:
image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")
关于python - 如何从内存中向 Tesseract 提供图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39110300/