这个link展示了如何将 pdf
转换为图像。有没有办法在转换为图像之前缩放我的 pdf
?在我的项目中,我将 pdf
转换为 png
,然后使用 Python-tesseract
库提取文本。我注意到,如果我缩放 pdf
,然后将部分另存为 png
,那么 OCR 会提供更好的结果。那么有没有办法在转换为 png 之前先缩放 pdf?
最佳答案
我认为提高图像质量(分辨率)是比放大 pdf 更好的解决方案。
使用pdf2image
你可以很容易地完成这个任务:
安装pdf2image:pip install pdf2image
然后,在 python 中,将 pdf 转换为高质量图像:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
通过调整质量参数,您应该得到您想要的结果
关于image - 将pdf转换为图像,但放大后,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55305385/