python-2.7 - 如何从pdf中提取特定标题下的文本?

标签 python-2.7 pdf document text-extraction pdf-extraction

我想使用python从pdf中提取特定标题下的文本。

例如,我有一个标题为介绍、摘要、内容的 pdf。我只需要提取标题“摘要”下的文本。

我怎样才能做到这一点?

sample-image

最佳答案

这个场景正是我在我现在的公司工作的。我们需要提取位于标题下的文本。我个人使用基于规则的系统,即在逐行阅读整个文档后使用正则表达式来识别所有编号的标题。一旦我有了标题,我就输入标题的名称,我想为其找到相应的段落。此输入与预先存在的标题列表匹配,并使用通用句子编码器找到最接近的匹配项。之后,我只显示从该标题到下一个标题的所有内容。

关于python-2.7 - 如何从pdf中提取特定标题下的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48107611/

相关文章:

google-apps-script - Google 文档中的标题部分

php - 使用 php 将文件转换为 pdf 文件的最佳方法

css - 使用 Google 字体时,Bootstrap 图标 (Glyphicons) 位置稍微向上,我该如何解决这个问题?

django - 从 django 的 auth_user 表中删除用户

python - SQL Server 选择特定的 DataFrame 格式

python - 同一个图中的多个 matplotlib 图 + 到 pdf-Python

javascript - 基于多个分隔符解析为数组

iOS:从另一个应用程序打开一个应用程序的文档并保存回被调用的应用程序

python-2.7 - 用python减去两列不同的Dataframe

Python 类不适用于排序函数