最佳答案
这个场景正是我在我现在的公司工作的。我们需要提取位于标题下的文本。我个人使用基于规则的系统,即在逐行阅读整个文档后使用正则表达式来识别所有编号的标题。一旦我有了标题,我就输入标题的名称,我想为其找到相应的段落。此输入与预先存在的标题列表匹配,并使用通用句子编码器找到最接近的匹配项。之后,我只显示从该标题到下一个标题的所有内容。
关于python-2.7 - 如何从pdf中提取特定标题下的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48107611/