java - 如何使用 Apache POI 从 PDF 中提取原始文本？

我需要从几个文件中提取原始文本，其中一些是 PDF，一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在，我找到了很多关于处理 word 文件(提取和写入等)的文档，但我找不到任何关于从 PDF 中提取的文档。

我是否认为 Apache POI 具有此功能是错误的？

如果是这样，谁能推荐类似的允许从多种文件格式中提取文本的 Java 程序？

如果没有，任何人都可以指出我应该查看的文档和/或类/方法吗？

提前感谢您的帮助。

最佳答案

是的，您认为 POI 会做到这一点是错误的。 Apache POI适用于 Microsoft Office 文件格式，而 PDF 则不行。

您要么想要使用 Apache PDFBox直接，或我们Apache Tika这将支持 Microsoft Office 和 PDF 文件格式(以及许多其他格式)。

关于java - 如何使用 Apache POI 从 PDF 中提取原始文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16910731/

相关文章：

java - Android 中的 apache 的 HttpClient？