我需要从 docx 文件中提取第一页内容并将其另存为单独的文档。我需要将第一页(图像、表格、文本)中的所有内容原样保存在新的 docx 文件中。
我尝试的是: 我查看了解压缩的 docx 文件的 xml。由于 word 文档是可重排的,因此我无法在每一页结束后找到分页符。所以我无法通过 document.xml 找到每一页的末尾
有什么方法可以单独使用java XML DOM解析器获取文档第一页的XML内容?
最佳答案
不要编写新的解析器,已有大量现有工具可用于此(例如,如果您的输入从 XML 更改为二进制 Word 文件怎么办?)。
使用Apache POI例如,正如@JFB 建议的那样。
关于java - 通过XML解析从docx文件中提取第一页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24549652/