<分区>
我有 1000 和 1000 篇 PDF 文章,我只需要从中提取作者姓名和他的相关详细信息,如 address
和 email ID
以及 PDF 中提供的任何内容(我的意思是里面的内容)。我不想通过获取与 PDF 元数据相关的详细信息来做到这一点。因为我尝试过,所以我最终只得到了更少的细节,比如作者姓名、标题和其他一些我根本不需要的常见细节。
我已经遍历了互联网上的所有 API,但我仍然找到了解决方案。我需要用 Java 来完成。
<分区>
我有 1000 和 1000 篇 PDF 文章,我只需要从中提取作者姓名和他的相关详细信息,如 address
和 email ID
以及 PDF 中提供的任何内容(我的意思是里面的内容)。我不想通过获取与 PDF 元数据相关的详细信息来做到这一点。因为我尝试过,所以我最终只得到了更少的细节,比如作者姓名、标题和其他一些我根本不需要的常见细节。
我已经遍历了互联网上的所有 API,但我仍然找到了解决方案。我需要用 Java 来完成。
最佳答案
我认为您无法直接从任何图书馆获取它。 将 iTest 库用于 reading PDF。一旦您能够阅读文本,就可以使用正则表达式找到作者。
关于java - 如何使用java从pdf中提取作者详细信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10766690/