python - 使用 Python 查找 PDF 的标题

我有一个 PDF 文件，我想将其标题提取到一个字符串中。我所说的标题并不是元数据中的标题，而是文档中写入的实际标题。例如，来自here我想要参加“2014-15 年度 SAT® 官方模拟考试”

有什么办法可以实现这一点吗？

最佳答案

我会看一下 PDFMiner 。本质上，您可以通过编程方式加载 PDF。然后您需要进行某种类型的分析来找出如何提取标题。也许您尝试使用第一个直到新换行符，或某种类型的算法方法。我建议使用大量您知道标题的 PDF，并针对它们运行程序来测试是否成功检测到标题。然后，您可以使用该代码来处理您不知道标题的 PDF。这种技术通常称为使用训练集。

关于python - 使用 Python 查找 PDF 的标题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31899626/

上一篇：python - 扭曲意外连接丢失

下一篇：python - 异步任务意外延迟

相关文章：

linux - 在 Linux 上将带有阿拉伯文本的 PDF 转换为图像

java - 如何将多个 Java 文件漂亮地打印到单个页面上？

java - 使用摘要异步签署 pdf

python - 如果记录不存在，MongoDB 是插入记录的最快方法吗？

python - wkhtmltopdf 错误 "No such file or directory"(Django)

java - 添加到 PDF 的文本显示为粗体/粗糙

c# - 在没有 Interop 的情况下将 powerpoint 演示文稿 (ppt/x) 转换为 PDF

python - 第 8 行 : SyntaxError - bad input (' ' )

python - WTForms 双重 POST 提交预防刷新 Flask-wtf

python - 使用 ffmpeg 的图像到电影功能，是否可以在一段时间内传递帧而不是一次全部传递？