java - 如何使用java从pdf中提取作者详细信息

标签 java pdf

<分区>

我有 1000 和 1000 篇 PDF 文章,我只需要从中提取作者姓名和他的相关详细信息,如 addressemail ID 以及 PDF 中提供的任何内容(我的意思是里面的内容)。我不想通过获取与 PDF 元数据相关的详细信息来做到这一点。因为我尝试过,所以我最终只得到了更少的细节,比如作者姓名、标题和其他一些我根本不需要的常见细节。

我已经遍历了互联网上的所有 API,但我仍然找到了解决方案。我需要用 Java 来完成。

最佳答案

我认为您无法直接从任何图书馆获取它。 将 iTest 库用于 reading PDF。一旦您能够阅读文本,就可以使用正则表达式找到作者。

关于java - 如何使用java从pdf中提取作者详细信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10766690/

相关文章:

ios - 绘制 PDF 时的 CFAttributedString

c# - Canvas 的 .MoveUp 使用什么值

java - 使用 servlet/jsp 检查 HTTP 请求是否来自 Android 手机

ios - 单击按钮时打开 PDF 文档

java - 无法在 Java 中删除文件,因为它是在 Java Platform SE 二进制文件中打开的

java - Maven资源插件复制文件

python - 在python中将excel转换为pdf

c# - 使用 Jpeg2000 压缩中等质量的 Pdf 缩小尺寸

java - 如何在具有内存和时间限制的沙箱中运行不受信任的 Groovy 代码?

java - 尝试在 java 中打开图像文件时出现 NullPointerException