python - 使用 Python 查找 PDF 的标题

标签 python pdf

我有一个 PDF 文件,我想将其标题提取到一个字符串中。我所说的标题并不是元数据中的标题,而是文档中写入的实际标题。例如,来自here我想要参加“2014-15 年度 SAT® 官方模拟考试”

有什么办法可以实现这一点吗?

最佳答案

我会看一下 PDFMiner 。本质上,您可以通过编程方式加载 PDF。然后您需要进行某种类型的分析来找出如何提取标题。也许您尝试使用第一个直到新换行符,或某种类型的算法方法。我建议使用大量您知道标题的 PDF,并针对它们运行程序来测试是否成功检测到标题。然后,您可以使用该代码来处理您不知道标题的 PDF。这种技术通常称为使用训练集。

关于python - 使用 Python 查找 PDF 的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31899626/

相关文章:

linux - 在 Linux 上将带有阿拉伯文本的 PDF 转换为图像

java - 如何将多个 Java 文件漂亮地打印到单个页面上?

java - 使用摘要异步签署 pdf

python - 如果记录不存在,MongoDB 是插入记录的最快方法吗?

python - wkhtmltopdf 错误 "No such file or directory"(Django)

java - 添加到 PDF 的文本显示为粗体/粗糙

c# - 在没有 Interop 的情况下将 powerpoint 演示文稿 (ppt/x) 转换为 PDF

python - 第 8 行 : SyntaxError - bad input (' ' )

python - WTForms 双重 POST 提交预防刷新 Flask-wtf

python - 使用 ffmpeg 的图像到电影功能,是否可以在一段时间内传递帧而不是一次全部传递?