ms-word - 可靠地获取 .doc 文件的字符数

标签 ms-word ms-office word-count charactercount

自动计算 .doc 或 .docx 文件中的字符和/或单词数的可靠方法是什么？

唯一真正的要求是相当准确且相当可靠的计数。
它需要处理包含拉丁文字以外的内容的文档，因此在大多数情况下计算字符就足够了。
计数不一定需要与Word匹配，但越接近越好。
由于有无数不同的应用程序可以生成 .doc 文件，因此无法计算任何内容也没关系，但这种情况需要可捕获，因此我们知道计数可能不准确。对于所有其他情况，计数必须至少在 99% 的时间内达到 99% 的准确度。

我对所涉及的技术持开放态度，但可以在 *NIX 命令行上运行的技术将是我的首选。

有没有合理的解决方案？

最佳答案

这是一个link一些 Linux 文字到文本转换器。

例如，您可以使用

antiword file.doc | wc

进行计数。

编辑:

这个link显示 AbiWord 有一个命令行界面，您可以使用该界面将 .docx 格式转换为 .txt，然后使用“wc”计算单词数。 AbiWord确实支持docx格式

关于ms-word - 可靠地获取 .doc 文件的字符数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2278032/

上一篇：cookies - 如何在同一域上为 iframe 设置 cookie

下一篇：haskell - Aeson:如何解析带有字符串化对象元素的对象？

相关文章：

c# - 如何更新页眉和页脚中的字段，而不仅仅是主文档？

javascript - 如何使用 JavaScript 创建 .docx 文件而不是 .doc 单词

vba - 访问当前页眉中的形状

hyperlink - 如何使用 tika 从办公文档中提取超链接

c# - 添加对 Office 库的引用失败 : type or namespace name Word not found

java - 如何从java中的文本文件/文件夹中获取字数(不更改文件夹的读取顺序)

c++ - 带排序 C++ 的字数统计

ms-access - Access VBA-在 Word 表格中的文本后插入复选框

ms-office - Excel 2010中的共享字符串

C程序计算文本文件中的词频

©2024 IT工具网联系我们