我需要解析 .docx 文件并提取信息,其中包含多项选择题格式的问题。它还包含图像(例如数学方程)以及文本。我尝试了 poi 和 tika ,但只有我可以提取文本。有人可以建议我是否有任何开源 java 工具可以实现这一点吗?
最佳答案
.docx
格式本质上是一个 zip。要获取图像,请将 filename.docx
更改为 filename.zip
并解压 zip。
关于java - 解析 .docx 文件以提取文本和图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54800082/