java - 解析 .docx 文件以提取文本和图像

标签 java

我需要解析 .docx 文件并提取信息,其中包含多项选择题格式的问题。它还包含图像(例如数学方程)以及文本。我尝试了 poi 和 tika ,但只有我可以提取文本。有人可以建议我是否有任何开源 java 工具可以实现这一点吗?

最佳答案

.docx 格式本质上是一个 zip。要获取图像,请将 filename.docx 更改为 filename.zip 并解压 zip。

关于java - 解析 .docx 文件以提取文本和图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54800082/

相关文章:

java - 无法使用 quaqua 外观和感觉

java - 无法更新 Open NLP 模型

java - Spring 社会融合

java - MySQL服务器连接错误?

java - 但是,不应过度使用创建静态实用程序方法吗?如何避免呢?

java - Hibernate ManyToOne 映射不在 PKey 上

java - 如何在Java中将句子分成单词,然后将其分为两组?

java - 如何检查用户是否是 Telegram 群组的成员?

java - 有没有办法优化我生成文件并将其输出为 .zip 在 java servlet 中的方式?

java - JodaTime 整数最小值/最大值解析