pdf - 从PDF收集非结构化信息

原文 标签 pdf pdf-scraping

我希望将this PDF中的信息抓取为以下格式:



我已经在PDF中圈出了信息将来自的区域。

如您所见,此PDF的格式高度非结构化,更糟糕的是,不同的PDF可能具有完全不同的布局,并且还会缺少信息。对于不熟悉采矿的人来说,已经很难解析此PDF,因为并非所有信息都被清楚地标记。

所以我的问题是:甚至有可能提出一种自动化的方法来处理成千上万个这样的PDF?如果是这样,我将如何着手处理这一任务?我可以用R和Python很好地编程。

我意识到这是一项非常困难的(即使不是不可能的)任务。感谢您的输入。

最佳答案

我认为这没有人们想象的那么难。我同意这并不是100%准确,但可以肯定的是,您只是将潜在的不准确因素考虑在内。我也不认为人类是100%准确的。

因此,我建议您使用PDF库提取文本,然后使用一组关键字匹配项来尝试查找适当的信息。对于您提取的每个关键字,都可以使用示例PDF中的红色圆圈标记原始PDF。

然后,在最终输出中不仅存储数据,还存储PDF,以便人们可以查看数据并在适当时覆盖值。您需要定期检查覆盖的值并调整启发式方法以更好地应对。

您还需要一个测试平台,以便可以存储成千上万的测试文档,并根据您现有的知识库来验证任何代码更改。这使您有信心进行更改,并可以合理地确定您没有破坏任何关键内容。

我的答案可能包含基于ABCpdf的概念。这是我的工作。这就是我所知道的。 :-)

关于pdf - 从PDF收集非结构化信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17102062/

相关文章:

java - 从PDF文档中提取数据

python - 有Google图片搜索API吗?

javascript - 如何显示图片(img)或pdf(iframe)?

powershell - 显示 PDF 文件

javascript - PDF JavaScript在Adobe Reader DC中不起作用,但在所有其他Reader中起作用

java - 如何用boxable设置内部表的样式?

python - 从 PDF python 中提取/识别表

C# 3.0 使用 MemoryStream 将 itextsharp pdf 保存到数据库

html - 如何将 PDF 转换为 HTML?

用于将 PDF 转换为文本的 Python 模块