我正在开展一个项目,其中有一个 pdf 文件,其中描述了其中一项健康政策。我需要做的是从这个 PDF 中提取信息,并尝试以某种形式保存它,以便我可以通过从这个 PDF 中提取信息来回答与政策相关的问题。
这个 PDF 太大了,所以我想根据不同的部分来划分 PDF,这样当出现与某个特定区域相关的查询时,我就不必浏览整个文档。
我尝试使用一些 pdf 转换器来解决这个问题,这些转换器将 PDF 转换为 HTML。但这些转换器无法正确将 PDF 转换为 HTML,因此标题将带有标题标签。另外,即使我正确地转换它并从文档中获取正确的部分,我也不知道如何存储这些数据。(我的意思是我应该以哪种形式存储这些数据)。
还有其他解决方案可以实现这一目标吗?我正在使用 Python,如果需要的话我也可以使用 NLTK。此外,PDf 的格式并不固定,我的意思是我的代码应该适用于任何类型的 PDF。
最佳答案
PDFMiner它的优点是它可以定位从 PDF 中获取的每一部分文本。它不会很好地放在标题标签或类似的东西中,但如果您的文档中有一致的 PDF 结构,您也许能够得到一些东西。
关于python - 处理 PDF 以进行信息提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18824943/