image - 将pdf转换为图像,但放大后

标签 image pdf ocr python-tesseract poppler

这个link展示了如何将 pdf 转换为图像。有没有办法在转换为图像之前缩放我的 pdf?在我的项目中,我将 pdf 转换为 png,然后使用 Python-tesseract 库提取文本。我注意到,如果我缩放 pdf,然后将部分另存为 png,那么 OCR 会提供更好的结果。那么有没有办法在转换为 png 之前先缩放 pdf?

最佳答案

我认为提高图像质量(分辨率)是比放大 pdf 更好的解决方案。

使用pdf2image你可以很容易地完成这个任务:

安装pdf2image:pip install pdf2image

然后,在 python 中,将 pdf 转换为高质量图像:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

通过调整质量参数,您应该得到您想要的结果

关于image - 将pdf转换为图像,但放大后,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55305385/

相关文章:

c# - 如何在 UWP XAML 中为图像控件设置边框

javascript - CSS:如何从 Javascript 变量设置以中间为原点的元素位置?

php - 使用 php 从数据库中提取 pdf BLOB 并将其显示在 html 页面中不起作用

python - 自动生成 PDF

python - 使用 opencv python 识别图像中的文本数据以读取 mm/dd、描述和金额

c++ - 提高 Tesseract 检测质量

javascript - 动态改变在 Lightbox 中查看的图像

java - Jbutton Action 监听器

pdf - 使用 ghostscript 检查 PDF 是否有透明对象

python - 使tesseract仅识别数字