我想用Python解析PDF文件。我看过 PDFMiner 的示例,但无法解释我的要求。
例如,如果我想解析一份简历,它包含各种字段,例如摘要、经验和爱好。
我只想提取经验,并且该经验字段将位于第一位置或第二位置或任何位置,我需要确定经验字段所在的位置并需要提取数据。
我该怎么做?
最佳答案
有两种可行的方法来提取现场数据:
搜索一些预定义的关键字(例如
Experience
)以获取其位置。然后搜索下一部分的关键字 (Hobbies
),然后确定这两个部分之间的文本分区的坐标并从该位置提取此文本。如果 PDF 是使用相同的生成器生成的,那么您可能只需找到
Experience
部分的坐标,然后每次都从同一位置提取文本。(最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单的方法,因为所有有关 PDF 格式的工作都依赖于专门的工具
关于python - 在Python中从PDF中提取具有特定标题的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37675203/