java - 在 Java 中将 Microsoft Word 文档读入纯文本(DOC、DOCX)

标签 java ms-word docx doc

我正在寻找 Java 中的东西来读取 Word 文档以处理它们的文本。我需要的只是文本,没有什么特别的。我知道 Apache POI,但是它现在不支持 DOCX,有什么吗?

最佳答案

如果您不需要格式化信息、图像和所有其他花哨的东西,那么这项工作就容易多了。只需大约 5 到 10 行代码即可。

  1. 将 DOCX 视为 zip 文件。它由一堆文件组成,其中包括“document.xml”。使用 ZipInputStream 并单独提取该文件。 (您可以使用自己喜欢的 zip 实用程序并打开 docx 并亲自查看!)
  2. 使用 SAX 解析器并读取节点 body/p/r/t 之间的内容 - 瞧,你得到了文本!

这仅适用于您需要仅文本的情况。

关于java - 在 Java 中将 Microsoft Word 文档读入纯文本(DOC、DOCX),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2263951/

相关文章:

java - 是否可以通过 Java 在 Android 中进行全景图像拼接?

javascript - 替换多个文档中的部分 HTML 字符串

arrays - Word VBA - 循环通过 "AND"删除书签

.net - 在 ASP.NET 中,如何检测 Word 2003 或 2007 文件中的密码?

java - 如何使用 apache poi 在 docx 文件中设置普通标题?

java - Java 泛型中的上限通配符

java - 使用 Math.random() 和 ThreadLocalRandom.current().nextDouble() 以及 Random 类 nextDouble() 方法时获得相同的数字?

java - 如何使用 apache POI for word 在文本上添加删除线

javascript - html-docx-js 在创建 docx 文件时不能应用外部 css 类样式

java - org.gradle.api.internal.tasks.testing.TestSuiteExecutionException : Could not complete execution for Gradle Test Executor 5