python - 从 PDF 文件中获取数据,其布局与复制+粘贴相同

标签 python pdf pdfminer

我有一个程序,我希望实现自动化,其中涉及从 PDF 文件获取一系列表格。目前,我可以通过在任何查看器(Adobe、Sumatra、okular 等)中打开文件,然后按 Ctrl+A、Ctrl+C、Ctrl+V 将其保存到记事本中,并且它保持每一行与合理的对齐方式。足够的格式,然后我可以运行正则表达式并将其复制并粘贴到 Excel 中以供以后需要的任何内容。

当尝试使用 python 执行此操作时,我尝试了各种模块,PDFminer 是主要模块,它通过使用 this example for instance 来工作。 。但它返回单列中的数据。其他选项仅包括 getting it as an html table ,但在这种情况下,它添加了额外的拆分中间表,这使得解析更加复杂,甚至偶尔会在第一页和第二页之间切换列。

我现在已经有了一个临时的解决方案,但我担心我正在重新发明轮子,因为我可能只是在解析器中缺少一个核心选​​项,或者我需要考虑一些基本的选项PDF 渲染器可以解决这个问题。

有什么方法可以解决这个问题吗?

最佳答案

我最终实现了一个基于 this one 的解决方案,其本身由 tgray 的代码修改而成。到目前为止,它在我测试过的所有情况下都一致工作,但我尚未确定如何直接操作 pdfminer 的参数以获得所需的行为。

关于python - 从 PDF 文件中获取数据,其布局与复制+粘贴相同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40821501/

相关文章:

c# - 将 pdf 转换为来自 url 的流

Python PDF 直接读取它在 PDF 中的样子

angular - 如何在angular2中将HTML转换为pdf?

javascript - 如何在 jspdf.js 中设置导出表格的字体大小?

python - 如何在 Python 中检查字符串中是否包含数值?

python - 在 python 中传递 le 或 ge 符号

python - Pdf Miner 返回奇怪的字母/字符

python - 如何在 Python 中解锁 "secured"(读保护)PDF?

python - Django 上传到动态(ish)文件名

python - re.Pattern.findall 工作错误