我想知道如何通过 Java 将 Word .doc/.docx 文件转换为文本文件。我知道我可以通过 Word 本身执行此操作,但我希望能够执行以下操作:
java DocConvert somedocfile.doc converted.txt
谢谢。
最佳答案
如果您对处理 Word 文档文件的 Java 库感兴趣,您可能需要查看例如Apache POI .引自网站:
Why should I use Apache POI?
A major use of the Apache POI api is for Text Extraction applications such as web spiders, index builders, and content management systems.
附言:另一方面,如果您只是在寻找一个转换实用程序,那么 Stack Overflow 可能不是最合适的地方。
编辑:如果您不想使用现有的库,而是自己完成所有艰苦的工作,您会很高兴听到 Microsoft 发布了所需的文件格式规范。 (Microsoft Open Specification Promise 列出了可用的规范。只需谷歌搜索您感兴趣的任何规范。在您的情况下,您需要例如 OLE2 复合文件格式、Word 97 二进制文件格式和 Open XML 格式.)
关于java - 如何将 .doc 或 .docx 文件转换为 .txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2709923/