java - 如何将 .doc 或 .docx 文件转换为 .txt

标签 java ms-word

我想知道如何通过 Java 将 Word .doc/.docx 文件转换为文本文件。我知道我可以通过 Word 本身执行此操作,但我希望能够执行以下操作:

java DocConvert somedocfile.doc converted.txt

谢谢。

最佳答案

如果您对处理 Word 文档文件的 Java 库感兴趣,您可能需要查看例如Apache POI .引自网站:

Why should I use Apache POI?

A major use of the Apache POI api is for Text Extraction applications such as web spiders, index builders, and content management systems.


附言:另一方面,如果您只是在寻找一个转换实用程序,那么 Stack Overflow 可能不是最合适的地方。


编辑:如果您不想使用现有的库,而是自己完成所有艰苦的工作,您会很高兴听到 Microsoft 发布了所需的文件格式规范。 (Microsoft Open Specification Promise 列出了可用的规范。只需谷歌搜索您感兴趣的任何规范。在您的情况下,您需要例如 OLE2 复合文件格式、Word 97 二进制文件格式和 Open XML 格式.)

关于java - 如何将 .doc 或 .docx 文件转换为 .txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2709923/

相关文章:

java - 从 3.2 迁移到 4.1 后,Spring MVC 中的 POST 请求不起作用

java - 更改散点图中的系列轮廓描边和绘画

java - Flex 文件上传在使用 JSP 的 struts 环境中不起作用

vba - 如何从 Excel vba 操作已打开的 Word 文档

excel - VBA:使用 Excel 编辑 Word 文档会出现运行时错误 438:对象不支持此属性或方法

python - 如何用 python 搜索和替换 ms word 文档中所有出现的字符串?

java - 如何使用 Java 和 Selenium 动态映射元素

java - IntelliJ Linux LWJGL 3 添加 native 到

c# - 填写表格并打印文档

c# - 使用open xml和C#将图像插入到word文档中