shell - 如何使用shell计算UTF-8编码的文件中的汉字

标签 shell utf-8 wc

cat doc.txt and the following characters will show:


你好 Hello!
这是中文。This is a Chinese doc.

我可以使用命令

wc -w doc.txt



但它会显示:
8 doc.txt

此命令取字符 你好 这是中文 两者都是一个词,而实际上 你好 是两个中文单词和这是中文 四.

我想要的是让这些中文单词正确计数(示例中有 12 个单词),有人可以帮忙吗?

最佳答案

您可以使用 -m--chars选项:

$ echo -n "你好" | wc -m  

输出:
2

关于shell - 如何使用shell计算UTF-8编码的文件中的汉字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31563546/

相关文章:

bash - 从串口读取并以十六进制存储

ruby - 如何在 Ruby 中用字符名称替换 UTF-8 字符?

php - 从 php5.6 升级到 php7.0 时 utf8 编码中断

linux - 如何计算存档文件夹中文件的一些数据?

bash - -exec wc -l {}\;打印计数和路径,我只需要计数

linux - 抑制 `wc -l` 输出中的摘要信息

bash - 字符串比较不起作用

shell - 'find -exec' 或 'find | xargs -0' 哪个更快?

bash - 将数字作为命令行参数并打印计数

带有 utf-8 的 php substr() 函数在末尾留下 � 标记