这个问题我思考了很久。
我在越南的一家小型新闻公司工作。
我的文档服务器是最新版本的 Ubuntu(显然是 PHP/Apache),这意味着 .doc 和 .docx 等格式将无法 native 打开,据我所知.
但是,当记者上传文件时,他们有一半的时间是以某种 Microsoft 格式进行的。这意味着我的 Linux 机器无法打开和挑选关键字,这让我非常沮丧;这是因为 pdf2txt.py
之类的东西不起作用。
有没有办法解决这个问题,又不会给记者带来太多不便?我知道,由于我运行的是 Linux 服务器,我可能必须运行某种第三方应用程序来为我完成工作,这在短期内可能有效,但可能会带来一些安全风险。
总结:如何让 Linux 服务器自动将任何格式(如 .doc 和 .docx)转换为 PDF 以便进一步操作?
最佳答案
对于旧式 doc 文件,请查看 catdoc 和 wv。
对于可以将 OpenOffice 可以打开的任何内容转换为 OpenOffice 可以保存的任何内容的全方位解决方案,是 unoconv .
关于php - 如何将文档从 .doc 转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7729170/