我正在寻找 Java 中的东西来读取 Word 文档以处理它们的文本。我需要的只是文本,没有什么特别的。我知道 Apache POI,但是它现在不支持 DOCX,有什么吗?
最佳答案
如果您不需要格式化信息、图像和所有其他花哨的东西,那么这项工作就容易多了。只需大约 5 到 10 行代码即可。
- 将 DOCX 视为 zip 文件。它由一堆文件组成,其中包括“document.xml”。使用 ZipInputStream 并单独提取该文件。 (您可以使用自己喜欢的 zip 实用程序并打开 docx 并亲自查看!)
- 使用 SAX 解析器并读取节点 body/p/r/t 之间的内容 - 瞧,你得到了文本!
这仅适用于您需要仅文本的情况。
关于java - 在 Java 中将 Microsoft Word 文档读入纯文本(DOC、DOCX),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2263951/