java - 如何使用 Apache POI 从 PDF 中提取原始文本?

标签 java pdf apache-poi text-extraction

我需要从几个文件中提取原始文本,其中一些是 PDF,一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在,我找到了很多关于处理 word 文件(提取和写入等)的文档,但我找不到任何关于从 PDF 中提取的文档。

我是否认为 Apache POI 具有此功能是错误的?

如果是这样,谁能推荐类似的允许从多种文件格式中提取文本的 Java 程序?

如果没有,任何人都可以指出我应该查看的文档和/或类/方法吗?

提前感谢您的帮助。

最佳答案

是的,您认为 POI 会做到这一点是错误的。 Apache POI适用于 Microsoft Office 文件格式,而 PDF 则不行。

您要么想要使用 Apache PDFBox直接,或我们Apache Tika这将支持 Microsoft Office 和 PDF 文件格式(以及许多其他格式)。

关于java - 如何使用 Apache POI 从 PDF 中提取原始文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16910731/

相关文章:

java - Android 中的 apache 的 HttpClient?

android - 在 Android 中从 URI 渲染 PDF?

android - Android 上的 PDF 阅读

java - 无法使用 HSSF Java 删除 Excel 工作表

java - 使用 Apache POI 在 pptx 中创建表

java - 是否有任何其他方法可以在构造函数中模拟此方法调用

java - Kotlin 需要 JDK 吗?

java - Gradle 无法解决 IntelliJ 中的 Sonatype Nexus 依赖性

iphone - 第一个pdf页面的图像 ios sdk

java - XSSFSheet 的 autoSizeColumn() 失败