javascript - 如何从PDF文件中的表格中提取数据?

标签 javascript python pdf text

我有一个包含表格的PDF文件,格式如下:

pdf img

现在;我需要从每行的特定列中提取数据以插入数据库中。 如何仅使用 javascript 或 python 提取我想要的列?

我已经尝试过手动方式,但这还不够。

我希望将原始数据放入变量(数组或列表)中。

============================================ 更新:

我决定使用python,库的名字是tabula;我使用 pip 安装它:

pip install tabula-py

您将 pdf 传递到图书馆并指定表格的页面。我的问题中表格的输出看起来很神奇:

enter image description here

最佳答案

我用过pdfjs-dist提取 pdf 中的项目,并应用一些规则来识别表格元素。提取的项目不仅有文本信息,而且只有一个名为“transform”(变换矩阵)的属性,其中包含坐标信息,也可以用来标识表格元素。

第一件事是找到表的开头。在许多情况下,标题是相同的,因此您可以利用这些单词来找到开头。一行中的第一个表格元素可能共享相同的坐标,这也可以提供表格开始位置的线索。识别出表格的开头后,由于所有表格都是固定宽度的,因此可以将项目划分到某些列。请注意,单个单元格中可能有多于一行,因此您需要将它们组合起来。

关于javascript - 如何从PDF文件中的表格中提取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57410061/

相关文章:

javascript - 检测特定元素的位置

javascript - 删除接下来所有匹配的选择器

python - Django 模板 - 有条件地为登录用户显示一个按钮

python - 如何修复 'fatal Python error: _enter_buffered_busy: could not aquire lock for <_io.BufferedWriter name=' <stdout >'> at interpreter shutdown' 错误?

javascript - 如果使用 noscript 标记在客户端禁用 javascript,则显示消息

javascript - requestAnimationFrame(...paramList...) 有什么好处?

python - 谷歌应用程序引擎中的延迟任务是否并行?

c++ - 显式设置图像压缩过滤器

java - iText7 LtvVerification.addVerification 未启用 LTV

ruby-on-rails - Prawn pdf组、事务和回滚方法问题