我有一个程序,我希望实现自动化,其中涉及从 PDF 文件获取一系列表格。目前,我可以通过在任何查看器(Adobe、Sumatra、okular 等)中打开文件,然后按 Ctrl+A、Ctrl+C、Ctrl+V 将其保存到记事本中,并且它保持每一行与合理的对齐方式。足够的格式,然后我可以运行正则表达式并将其复制并粘贴到 Excel 中以供以后需要的任何内容。
当尝试使用 python 执行此操作时,我尝试了各种模块,PDFminer 是主要模块,它通过使用 this example for instance 来工作。 。但它返回单列中的数据。其他选项仅包括 getting it as an html table ,但在这种情况下,它添加了额外的拆分中间表,这使得解析更加复杂,甚至偶尔会在第一页和第二页之间切换列。
我现在已经有了一个临时的解决方案,但我担心我正在重新发明轮子,因为我可能只是在解析器中缺少一个核心选项,或者我需要考虑一些基本的选项PDF 渲染器可以解决这个问题。
有什么方法可以解决这个问题吗?
最佳答案
我最终实现了一个基于 this one 的解决方案,其本身由 tgray 的代码修改而成。到目前为止,它在我测试过的所有情况下都一致工作,但我尚未确定如何直接操作 pdfminer 的参数以获得所需的行为。
关于python - 从 PDF 文件中获取数据,其布局与复制+粘贴相同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40821501/