python - 处理 PDF 以进行信息提取

标签 python html pdf nltk information-retrieval

我正在开展一个项目,其中有一个 pdf 文件,其中描述了其中一项健康政策。我需要做的是从这个 PDF 中提取信息,并尝试以某种形式保存它,以便我可以通过从这个 PDF 中提取信息来回答与政策相关的问题。

这个 PDF 太大了,所以我想根据不同的部分来划分 PDF,这样当出现与某个特定区域相关的查询时,我就不必浏览整个文档。

我尝试使用一些 pdf 转换器来解决这个问题,这些转换器将 PDF 转换为 HTML。但这些转换器无法正确将 PDF 转换为 HTML,因此标题将带有标题标签。另外,即使我正确地转换它并从文档中获取正确的部分,我也不知道如何存储这些数据。(我的意思是我应该以哪种形式存储这些数据)。

还有其他解决方案可以实现这一目标吗?我正在使用 Python,如果需要的话我也可以使用 NLTK。此外,PDf 的格式并不固定,我的意思是我的代码应该适用于任何类型的 PDF。

最佳答案

PDFMiner它的优点是它可以定位从 PDF 中获取的每一部分文本。它不会很好地放在标题标签或类似的东西中,但如果您的文档中有一致的 PDF 结构,您也许能够得到一些东西。

关于python - 处理 PDF 以进行信息提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18824943/

相关文章:

javascript - 如何通过 javascript 更改样式表

html - 如何正确地 <use> <svg> 元素来加载外部资源?

python - 您打算如何处理向 Python 3 的迁移?

python - python中 `[foo]`后面的 `from bar import foo`有什么特殊含义吗? (也许是 python2 特有的)

python - MySQL 比较两个条目之间的相同字段 - 查询需要很长时间

javascript - 将 FileAttachment 注释链接到文件

node.js - 在nodejs Canvas 中将png图像转换为pdf

python - 如何在seaborn中加载3D numpy数组作为数据帧

javascript - 如何在不重新加载的情况下动态更改 URL?

algorithm - Alpha 合成算法(混合模式)