python - 从 PDF(库或实用程序)中提取表单数据

标签 python forms pdf extract

我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。

例如,假设我有一个 HTML 表单,但我还希望用户可以提交已填写的 PDF 表单而不是 HTML 表单。

所以,我正在寻找的是一个库(或简单的 CLI 实用程序),它将 PDF 作为输入,并允许我按名称提取填写的字段,就像使用 HTML 一样。

我尝试过 pdftotext,但这并不能真正保留信息,它只是将 PDF 呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少对于我的测试 PDF)(只是得到空输出)。

如果是一个库,我对语言不太挑剔,但 python 会更好。

最佳答案

我正在使用pdftk提取一些数据并操作 pdf,但我不确定是否可以按照您需要的方式处理填写的表格。

关于python - 从 PDF(库或实用程序)中提取表单数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10119836/

相关文章:

javascript - 从 Zend Form 元素中删除 id 属性

forms - Angular 2 : How to get the selected value from different options of a form?

r - 在 RMarkdown 中使用 LaTeX 动画包

java - 如何将镜框安装到瑞士二维码发票上

javascript - 验证 Redux 表单中的 URL

java - 如何识别并纠正边界框问题?

python - Scrapy 和代理

python - 如何正确存储 HStore 字段?

python - 在 groupby 之后过滤行并应用函数

python - 以位存储扑克牌的更有效方法?