我有一个 PDF 文件,我想将其标题提取到一个字符串中。我所说的标题并不是元数据中的标题,而是文档中写入的实际标题。例如,来自here我想要参加“2014-15 年度 SAT® 官方模拟考试”
有什么办法可以实现这一点吗?
最佳答案
我会看一下 PDFMiner 。本质上,您可以通过编程方式加载 PDF。然后您需要进行某种类型的分析来找出如何提取标题。也许您尝试使用第一个直到新换行符,或某种类型的算法方法。我建议使用大量您知道标题的 PDF,并针对它们运行程序来测试是否成功检测到标题。然后,您可以使用该代码来处理您不知道标题的 PDF。这种技术通常称为使用训练集。
关于python - 使用 Python 查找 PDF 的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31899626/