自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么?
唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word匹配,但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件,因此无法计算任何内容也没关系,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须至少在 99% 的时间内达到 99% 的准确度。
我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的技术将是我的首选。
有没有合理的解决方案?
最佳答案
这是一个link一些 Linux 文字到文本转换器。
例如,您可以使用
antiword file.doc | wc
进行计数。
编辑:
这个link显示 AbiWord 有一个命令行界面,您可以使用该界面将 .docx 格式转换为 .txt,然后使用“wc”计算单词数。 AbiWord确实支持docx格式
关于ms-word - 可靠地获取 .doc 文件的字符数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2278032/