python - 使用 Python 3 从 PDF 解析中提取标题和子标题

标签 python html python-3.x pdf

我正在尝试将 pdf 解析为 html,然后我想从标签中提取标题和副标题。 pdf 文档是由 Microsoft word 生成的,所以我很确定一定有办法获取这些标题。

到目前为止,我已经尝试使用 Apache Tika 和 PDFMiner.six 进行解析,但到目前为止,我得到的 html 没有这样的标签,我可以用它来提取文档的标题和副标题。

我想知道是否有办法做到这一点,将不胜感激任何帮助。谢谢

最佳答案

我建议您使用 GROBID,它是一个机器学习库,用于将 PDF 等原始文档提取、解析和重组为结构化的 XML/TEI 编码文档,特别关注技术和科学出版物。

用于 GROBID REST 服务的简单 Python 客户端可在 https://github.com/kermitt2/grobid-client-python 获得

此 Python 客户端可用于通过 GROBID 服务处理给定目录中的一组 PDF。结果写入给定的输出目录,并包括生成的 PDF 的 XML TEI 表示。

希望这会有所帮助。

关于python - 使用 Python 3 从 PDF 解析中提取标题和子标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58092187/

相关文章:

python - 如何从 LogisticRegressionCV 和 GridSearchCV 获得可比较和可重现的结果

python - VSCode 没有获取我的 python 虚拟环境

html - 在其他 CSS 元素中居中 CSS 元素

javascript - Suckerfish 下拉菜单的流体宽度

html - 如何在屏幕尺寸变化时更改 CSS

Python - 在下一个代码中使用打印

python - 如何将这个格式奇怪的循环打印函数转换为具有类似输出的数据框?

python-3.x - 如何备份 Sqlalchemy 数据库?

python-3.x - Asyncio 标准输出 - 失败

python - 如何在Python中处理这个JSON文件?