java - 将 word (.docx) 转换为 docbook

标签 java python linux ms-word docbook

我的任务是找到一种将大量 .docx 文件转换为 docbook 5 的方法。目前,我们在 openoffice 中打开文件并保存到 docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将进一步处理为我们的自定义放宽 NG 模式。因此,这种转换不需要完美无缺。我环顾四周,并将继续调查一些线索,但没有发现任何有用的东西。

看着Convert doc/docx to semantic HTML他们建议upCast ,但这似乎不适合我的需要。

我正在寻找可以从命令行使用的免费软件。我最终想批量处理我们的文件。我已经包含了 linux、python 和 java 标签,因为这些是我最熟悉的环境,但愿意为正确的解决方案而努力。在我出去重新发明轮子之前,我正在尝试做一些研究。

最佳答案

冒着从 SX 获得考古学家徽章的风险,答案应包括对 Pandoc 的引用.这不依赖于开放式办公室。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx

关于java - 将 word (.docx) 转换为 docbook,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6332446/

相关文章:

java - 实现 JFreeChart 时出现问题

java - 为什么我的随机数生成器返回负值

java - 在我的 hdpi 文件夹中添加新的 png 图片后,R.java 消失了

python - 魔杖将透明背景变成黑色

c - 理解gnu libc的strcmp函数

linux - 使用 sed 向特定行添加字符串

java - 平台间API代理的最佳实践

python - scrapy支持xpath中的正则表达式吗?

python - Pyramid :永远不会调用 config.set_request_property 回调

linux - 无法在 Linux Ubuntu 12.04 上运行 maven2