python - Tabula 按区域坐标提取表格

标签 python pdf tabula

我们可以选择通过指定坐标从 PDF 文档中提取表格。对于 Windows 用户,为了获取坐标,您必须将 PDF 文件上传到 Tabula 网页并导出包含坐标的脚本,然后将坐标输入到您的代码中。对于 Mac 用户,您只需使用预览应用程序和裁剪检查器。我只是想知道是否有任何第三方程序或插件可以为 Windows 用户提供此功能?我认为这在以下情况下会很方便:

  1. 当您无法访问互联网时。
  2. 我认为预览应用程序会更准确,因为我遇到过 Tabula 网页生成的不准确坐标。

如果有人能指出我在哪里可以找到这样的东西,我将不胜感激。非常感谢。

最佳答案

Tabula 需要以 PDF 单位指定区域,定义为 1/72 英寸。如果使用 Acrobat Reader DC,您可以使用测量工具并将其读数乘以 72。

Tabula 需要将区域指定为顶部左侧底部右侧 距离。要获得它们,您可以测量从页面的顶部到表格开头等的距离。

enter image description here

关于python - Tabula 按区域坐标提取表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45457054/

相关文章:

javascript - Iframe PDF 更改页面点击 url

python - key 错误 : 0L when running packaged code

python延迟执行

python - 在 Keras (tensorflow) 中合并多个模型

java - 如何区分可搜索的 pdf 和不可搜索的 pdf?

excel - 使用 vba 将 docx 导出为 pdf

python - tabula-py 的奇怪行为

java - 提取的 pdf 文本未显示在控制台中

python - Tabula-py - 页面参数

当我重定向输出时,Python 程序不会在 docker 容器中的 shell 脚本中运行