java - 通过XML解析从docx文件中提取第一页内容

标签 java xml document domparser

我需要从 docx 文件中提取第一页内容并将其另存为单独的文档。我需要将第一页(图像、表格、文本)中的所有内容原样保存在新的 docx 文件中。

我尝试的是: 我查看了解压缩的 docx 文件的 xml。由于 word 文档是可重排的,因此我无法在每一页结束后找到分页符。所以我无法通过 document.xml 找到每一页的末尾

有什么方法可以单独使用java XML DOM解析器获取文档第一页的XML内容?

最佳答案

不要编写新的解析器,已有大量现有工具可用于此(例如,如果您的输入从 XML 更改为二进制 Word 文件怎么办?)。

使用Apache POI例如,正如@JFB 建议的那样。

关于java - 通过XML解析从docx文件中提取第一页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24549652/

相关文章:

java - alertDialog 中的 SeekBar

java - 在 XML 中的 ListView 上方添加 header

c# - 如何使用 WebAPI 返回 Dictionary<complexType,int>

cocoa - 如何使 Finder 'Open With' 适用于我的应用程序(Xcode、OS X)?

javascript - 文档在 JavaScript 中的用途是什么?

java - 我的自定义异常不返回异常代码(代码始终返回 500)

java - 如何从 REST Web 服务读取规范

Java 等于 ("[a-zA-Z]+")始终为 false

xml - 是否可以转义当前的 XPath 谓词以从包含谓词中获取值(value)?

SOLR 3.6.0,在对一堆实体进行完全重新索引后,我的一些项目没有进入 SOLR 索引,但没有生成日志