所以我所在的州以 PDF 形式发布了一堆数据,但更糟糕的是,大多数(全部?)PDF 似乎是在 Office 中键入的字母、打印/传真,然后扫描(我们的政府处于最佳状态是吗?)。起初我以为我疯了,但后来我开始看到许多“倾斜”的 pdf,就像有人没有正确地将它们放在扫描仪上一样。因此,我认为从它们中获取实际文本的下一个最佳方法是将每个页面变成图像。
显然这需要自动化,如果可能的话,我更愿意坚持使用 Python。如果 Ruby 或 Perl 有某种形式的实现太棒了以至于不能放弃,我可以走那条路。我已经尝试使用 pyPDF 进行文本提取,这显然对我没有多大好处。我已经尝试过 swftools,但我从中获得的图像几乎完全无法使用。似乎字体在转换中被破坏了。我什至并不真正关心输出时的图像格式,只要它们相对轻量级且可读即可。
最佳答案
如果 PDF 是真正扫描的图像,则不应将 PDF 转换为图像,而应从 PDF 中提取图像。最有可能的是,PDF 中的所有数据本质上都是一张巨大的图像,并以 PDF 的详细信息进行包装,以使其在 Acrobat 中可读。
您应该尝试简单的权宜之计,即在 PDF 中查找图像,然后将字节复制出来:Extracting JPGs from PDFs .那里的代码非常简单,可能有几十个原因它不适用于您的 PDF 文件。但如果是这样,您将有一种快速而轻松的方式从 PDF 文件中获取图像数据。
关于python - 自动将 PDF 转换为图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2002055/