python - 从 PDF 文件中获取数据，其布局与复制+粘贴相同

标签 python pdf pdfminer

我有一个程序，我希望实现自动化，其中涉及从 PDF 文件获取一系列表格。目前，我可以通过在任何查看器(Adobe、Sumatra、okular 等)中打开文件，然后按 Ctrl+A、Ctrl+C、Ctrl+V 将其保存到记事本中，并且它保持每一行与合理的对齐方式。足够的格式，然后我可以运行正则表达式并将其复制并粘贴到 Excel 中以供以后需要的任何内容。

当尝试使用 python 执行此操作时，我尝试了各种模块，PDFminer 是主要模块，它通过使用 this example for instance 来工作。。但它返回单列中的数据。其他选项仅包括 getting it as an html table ，但在这种情况下，它添加了额外的拆分中间表，这使得解析更加复杂，甚至偶尔会在第一页和第二页之间切换列。

我现在已经有了一个临时的解决方案，但我担心我正在重新发明轮子，因为我可能只是在解析器中缺少一个核心选项，或者我需要考虑一些基本的选项PDF 渲染器可以解决这个问题。

有什么方法可以解决这个问题吗？

最佳答案

我最终实现了一个基于 this one 的解决方案，其本身由 tgray 的代码修改而成。到目前为止，它在我测试过的所有情况下都一致工作，但我尚未确定如何直接操作 pdfminer 的参数以获得所需的行为。

关于python - 从 PDF 文件中获取数据，其布局与复制+粘贴相同，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40821501/

上一篇：python - Twisted 非默认根 HTTP

下一篇：python - Flask 应用仅在 wtforms 验证后提交目标 ="_blank"表单

相关文章：

c# - 将 pdf 转换为来自 url 的流

Python PDF 直接读取它在 PDF 中的样子

angular - 如何在angular2中将HTML转换为pdf？

javascript - 如何在 jspdf.js 中设置导出表格的字体大小？

python - 如何在 Python 中检查字符串中是否包含数值？

python - 在 python 中传递 le 或 ge 符号

python - Pdf Miner 返回奇怪的字母/字符

python - 如何在 Python 中解锁 "secured"(读保护)PDF？

python - Django 上传到动态(ish)文件名

python - re.Pattern.findall 工作错误