当您打开 Word 时,它允许您另存为 Word Open XML 格式。我看过关于将 docx 文件打开为 zip 然后从那里提取内容的帖子。但我真正想要的是一种将 docx 转换为单个 XML 的方法,就像在 MS Office 中执行“另存为”操作时一样。怎么办?
如何为 .doc 格式执行此操作?
注意:我想以编程方式执行此操作。最好在Linux下用PHP开发。但如果那不可用,那么其他语言也可以。最后,如果归根结底,我可以考虑启动 Windows 服务器来执行此操作。
最佳答案
很抱歉恢复一个死线程,但我刚刚找到了 DOCX 文件的答案。 DOCX 文件只是 XML 文件的 ZIP 存档。因此,为了提取其中一个文件 v.gr 的内容。 Linux环境下的word/document.xml,需要解压:
unzip -q -c myfile.docx word/document.xml
要将此命令的输出捕获到 PHP 脚本的 $xml 变量中,您可以发出:
$xml = shell_exec ("unzip -q -c myfile.docx word/document.xml");
希望此答案对 DOCX 文件有所帮助。迟到总比不到好。
对于DOC文件,此方法无效。
关于xml - 如何自动将 Doc/Docx 转换为单个 XML 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11932163/