java - 如何使用PDFPTable或PDFPTable Extractor类在java中读取PDF文件中的值?

标签 java pdf maven-2 maven-plugin pdfbox

我尝试使用 PDFTextStripperByAreaPDPageContentStream 类从我的 pdf 文件中提取数值。 它们工作得很好!

但我的要求是使用PDFTablePDFTableExtractor类来读取pdf内容。你能告诉我什么是maven依赖jar文件我需要用来访问上述类? 另请提及从特定位置获取值所需的方法。

我还有一个疑问。 我们可以从 PDF 文件中提取表格格式的数据吗? 我的意思是带有表格线的行和列的数据。如果一个页面包含一些文本和一个表格,我们可以只读取表格标题和行吗? 我已将我的页面上传到 GitHub。点击here !从该图像中,我只需要总保费、GST 和应付总额的值。请告诉我是否可行

最佳答案

首先,不要使用包com.lowagie中的类 该代码是旧的、过时的并且不再受支持。此外,这段代码属于iText的早期版本。

后来对所有代码的知识产权进行了彻底的调查(因为iText有很多贡献者)。当您使用旧代码时,您可能(在不知不觉中)使用您没有版权的代码。

其次,如果您只是想解决从 PDF 文档中提取数字和表格的问题,请查看 pdf2Data。这是一个 iText 插件,可以让事情变得更加容易。

它为您提供了一个漂亮的用户界面,您可以在其中构建用于数据提取的模板。然后,您可以调用单个方法来将现有 (XML) 模板与输入 PDF 文档进行匹配,并且您将获得一个包含有关匹配的所有信息的数据结构。

http://pdf2data.online/

关于java - 如何使用PDFPTable或PDFPTable Extractor类在java中读取PDF文件中的值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48402198/

相关文章:

java - Maven 找不到 Struts2 依赖项

c# - Rotativa ActionAsPdf() 非常慢

pdf - 为pdf页面添加边距

java - spring - @ContextConfiguration 无法在 src/test/resources 中加载配置文件

java - 我的 Maven 配置有什么问题?

java - Maven 可以生成 exe 文件和 mac os x 应用程序吗?

java - 用java在远程机器上打开ServerSocket?

java - 方法引用和 lambda 之间的区别

java - 重复值

java - 使用 PDFBox 填写的 PDF 表单不起作用