我将解析 ms word 格式的文档并将其转换为 JSON(或通过 XML 最终转换为 JSON)。这样的解析和转换将如何处理嵌入到 Word 文档中的图像。如何以 json 格式表示此图像。任何指针或演示示例。
我正在考虑使用 apache poi 作为解析器并为 json 字符串生成器定制 java 类。
是否有任何现成的工具可以进行此类解析和转换。
最佳答案
只是 .zip word 文件,.docx 文件只不过是 xml 的集合。打开 .zip 文件后,您将找到 xml 文件。然后通过 google feed API 将 xml 文件转换为 json。
关于java - Word 文档文件转 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26655741/