excel - 提取PDF文档的特定部分

标签 excel pdf converters

我有多个 (30) PDF 文件,每个包含 48-96 页。所有页面的布局都是相同的,只有其他内容(数字、图表)。

背景:这些页面是光纤电缆测量的 PDF 报告,我必须按电缆的衰减对它们进行排序。由于保密问题,我很遗憾无法提供示例文件。

为了验证这些报告,我们正在做一些控制样本,这就是为什么我需要对报告进行排序。现在的问题是:如何将所有 pdf 文件中所有页面的非常特定部分导出为我可以排序的某种格式?

正如已经提到的,值在页面上的位置非常具体。它也是已经“解析”的内容,因此它可以在 PDF 文件中“作为文本”使用,因此不会被扫描,不需要 OCR。

感谢任何帮助。我目前不知道如何解决这个问题,可能是一些可以做类似事情的工具,或者是解决这个问题的编程方法。

最佳答案

正如您在对原始问题的评论中指出的那样,您已准备好编写解决方案。我建议使用 Java 和 iText PDF 库。它使您能够从文档中提取文本,只要文本实际上是可提取的(您实际上可以将字形放入 PDF 中,但删除从字形到字符的映射)。

您可以在 ExtractPageContent* samples for chapter 15 中找到使用 iText 提取 PDF 文本的示例代码。的iText in Action — 2nd Edition 。特别是ExtractPageContentArea对您的案例感兴趣。

本质上,您只需要获取该示例并对其进行概括,即可从页面上的多个区域中提取文本。

关于excel - 提取PDF文档的特定部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14123805/

相关文章:

java - 如何将集合元素显示为 selectManyListbox 中的项目?

html - 从网页获取数据

php - FPDF output() 以 html 扩展名保存文件

jsf - :convertNumber doesn't throw conversion error on trailing alphabetic characters in decimal

pdf - 如何轻松裁剪 PDF 页面?

java - iText Pdf 页面字节大小

java - 电费/能源账单计算器 : Java

excel - 是否可以在不使用 System.Drawing 对象 Graphics 和 Bitmap 的情况下使用 .Net 或 OpenXml 框架计算 Excel 列的宽度?

excel - 四阶和五阶多项式回归在 Excel 中不起作用

date - Excel VBA - 日期格式转换