我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。
例如,假设我有一个 HTML 表单,但我还希望用户可以提交已填写的 PDF 表单而不是 HTML 表单。
所以,我正在寻找的是一个库(或简单的 CLI 实用程序),它将 PDF 作为输入,并允许我按名称提取填写的字段,就像使用 HTML 一样。
我尝试过 pdftotext,但这并不能真正保留信息,它只是将 PDF 呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少对于我的测试 PDF)(只是得到空输出)。
如果是一个库,我对语言不太挑剔,但 python 会更好。
最佳答案
我正在使用pdftk提取一些数据并操作 pdf,但我不确定是否可以按照您需要的方式处理填写的表格。
关于python - 从 PDF(库或实用程序)中提取表单数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10119836/