我的任务是找到一种将大量 .docx 文件转换为 docbook 5 的方法。目前,我们在 openoffice 中打开文件并保存到 docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将进一步处理为我们的自定义放宽 NG 模式。因此,这种转换不需要完美无缺。我环顾四周,并将继续调查一些线索,但没有发现任何有用的东西。
看着Convert doc/docx to semantic HTML他们建议upCast ,但这似乎不适合我的需要。
我正在寻找可以从命令行使用的免费软件。我最终想批量处理我们的文件。我已经包含了 linux、python 和 java 标签,因为这些是我最熟悉的环境,但愿意为正确的解决方案而努力。在我出去重新发明轮子之前,我正在尝试做一些研究。
最佳答案
冒着从 SX 获得考古学家徽章的风险,答案应包括对 Pandoc 的引用.这不依赖于开放式办公室。
pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx
关于java - 将 word (.docx) 转换为 docbook,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6332446/