ms-word - 可靠地获取 .doc 文件的字符数

标签 ms-word ms-office word-count charactercount

自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么?

唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word匹配,但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件,因此无法计算任何内容也没关系,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须至少在 99% 的时间内达到 99% 的准确度。

我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的技术将是我的首选。

有没有合理的解决方案?

最佳答案

这是一个link一些 Linux 文字到文本转换器。

例如,您可以使用

antiword file.doc | wc

进行计数。

编辑:

这个link显示 AbiWord 有一个命令行界面,您可以使用该界面将 .docx 格式转换为 .txt,然后使用“wc”计算单词数。 AbiWord确实支持docx格式

关于ms-word - 可靠地获取 .doc 文件的字符数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2278032/

相关文章:

c# - 如何更新页眉和页脚中的字段,而不仅仅是主文档?

javascript - 如何使用 JavaScript 创建 .docx 文件而不是 .doc 单词

vba - 访问当前页眉中的形状

hyperlink - 如何使用 tika 从办公文档中提取超链接

c# - 添加对 Office 库的引用失败 : type or namespace name Word not found

java - 如何从java中的文本文件/文件夹中获取字数(不更改文件夹的读取顺序)

c++ - 带排序 C++ 的字数统计

ms-access - Access VBA-在 Word 表格中的文本后插入复选框

ms-office - Excel 2010中的共享字符串

C程序计算文本文件中的词频