xml - 如何自动将 Doc/Docx 转换为单个 XML 文件?

标签 xml ms-office openxml office-interop docx

当您打开 Word 时,它允许您另存为 Word Open XML 格式。我看过关于将 docx 文件打开为 zip 然后从那里提取内容的帖子。但我真正想要的是一种将 docx 转换为单个 XML 的方法,就像在 MS Office 中执行“另存为”操作时一样。怎么办?

如何为 .doc 格式执行此操作?

注意:我想以编程方式执行此操作。最好在Linux下用PHP开发。但如果那不可用,那么其他语言也可以。最后,如果归根结底,我可以考虑启动 Windows 服务器来执行此操作。

最佳答案

很抱歉恢复一个死线程,但我刚刚找到了 DOCX 文件的答案。 DOCX 文件只是 XML 文件的 ZIP 存档。因此,为了提取其中一个文件 v.gr 的内容。 Linux环境下的word/document.xml,需要解压:

unzip -q -c myfile.docx word/document.xml

要将此命令的输出捕获到 PHP 脚本的 $xml 变量中,您可以发出:

$xml = shell_exec ("unzip -q -c myfile.docx word/document.xml");

希望此答案对 DOCX 文件有所帮助。迟到总比不到好。

对于DOC文件,此方法无效。

关于xml - 如何自动将 Doc/Docx 转换为单个 XML 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11932163/

相关文章:

android - 创建自定义弹出对话框菜单

c# - 在两个项目之间共享 XML 文件?

ms-word - Inno Setup Microsoft Word 模板子目录安装

c# - 如何在 EPPlus 中对行/列进行分组

android - 在android中通过cardview创建 View

c# - Linq XML 不会选择指定的 xml 元素

c# - 如何通过页码访问OpenXML内容?

xpath - 限制XPath谓词:谓词以

javascript - 在 Excel for Windows 的加载项中嵌入 UserVoice 小部件

excel - VSTO - Word 和 Excel 的共享插件以修改功能区