python - 在Python中从PDF中提取具有特定标题的数据

标签 python parsing pdf pdfminer pdf-parsing

我想用Python解析PDF文件。我看过 PDFMiner 的示例,但无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,例如摘要、经验和爱好。

我只想提取经验,并且该经验字段将位于第一位置或第二位置或任何位置,我需要确定经验字段所在的位置并需要提取数据。

我该怎么做?

最佳答案

有两种可行的方法来提取现场数据:

  1. 搜索一些预定义的关键字(例如Experience)以获取其位置。然后搜索下一部分的关键字 (Hobbies),然后确定这两个部分之间的文本分区的坐标并从该位置提取此文本。

  2. 如果 PDF 是使用相同的生成器生成的,那么您可能只需找到 Experience 部分的坐标,然后每次都从同一位置提取文本。

  3. (最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单的方法,因为所有有关 PDF 格式的工作都依赖于专门的工具

关于python - 在Python中从PDF中提取具有特定标题的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37675203/

相关文章:

java - 用于创建交互式 PDF 的 API

python - 如何将电压读数限制在写入日志文件的范围内?

python3通过分隔符将大文件分割成小文件(不是大小,行)

Python Flask 解析输出中的 JSON 内容

java - 字符串解析机制获取值

pdf - 将ZPL打印流转换为PDF文件

java - 是否可以使用java中的jasper或itext创建不可打印的pdf?

python - 不能在 visual studio 中包含 Python.h

python - 如何计算沿插值路径的均匀距离(Python2.7)?

python - 如果-else if-else语句,您将如何解析标准? (使用RPLY)