python - 处理 PDF 以进行信息提取

我正在开展一个项目，其中有一个 pdf 文件，其中描述了其中一项健康政策。我需要做的是从这个 PDF 中提取信息，并尝试以某种形式保存它，以便我可以通过从这个 PDF 中提取信息来回答与政策相关的问题。

这个 PDF 太大了，所以我想根据不同的部分来划分 PDF，这样当出现与某个特定区域相关的查询时，我就不必浏览整个文档。

我尝试使用一些 pdf 转换器来解决这个问题，这些转换器将 PDF 转换为 HTML。但这些转换器无法正确将 PDF 转换为 HTML，因此标题将带有标题标签。另外，即使我正确地转换它并从文档中获取正确的部分，我也不知道如何存储这些数据。(我的意思是我应该以哪种形式存储这些数据)。

还有其他解决方案可以实现这一目标吗？我正在使用 Python，如果需要的话我也可以使用 NLTK。此外，PDf 的格式并不固定，我的意思是我的代码应该适用于任何类型的 PDF。

最佳答案

PDFMiner它的优点是它可以定位从 PDF 中获取的每一部分文本。它不会很好地放在标题标签或类似的东西中，但如果您的文档中有一致的 PDF 结构，您也许能够得到一些东西。

关于python - 处理 PDF 以进行信息提取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18824943/

相关文章：

javascript - 如何通过 javascript 更改样式表