我需要从几个文件中提取原始文本,其中一些是 PDF,一些是 DOC 文件格式。
我必须使用 Apache POI 来执行此操作。现在,我找到了很多关于处理 word 文件(提取和写入等)的文档,但我找不到任何关于从 PDF 中提取的文档。
我是否认为 Apache POI 具有此功能是错误的?
如果是这样,谁能推荐类似的允许从多种文件格式中提取文本的 Java 程序?
如果没有,任何人都可以指出我应该查看的文档和/或类/方法吗?
提前感谢您的帮助。
最佳答案
是的,您认为 POI 会做到这一点是错误的。 Apache POI适用于 Microsoft Office 文件格式,而 PDF 则不行。
您要么想要使用 Apache PDFBox直接,或我们Apache Tika这将支持 Microsoft Office 和 PDF 文件格式(以及许多其他格式)。
关于java - 如何使用 Apache POI 从 PDF 中提取原始文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16910731/