shell - 如何使用shell计算UTF-8编码的文件中的汉字

cat doc.txt and the following characters will show:

你好 Hello!
这是中文。This is a Chinese doc.

我可以使用命令

wc -w doc.txt

但它会显示:

8 doc.txt

此命令取字符你好和 这是中文 两者都是一个词，而实际上你好是两个中文单词和这是中文 四.

我想要的是让这些中文单词正确计数(示例中有 12 个单词)，有人可以帮忙吗？

最佳答案

您可以使用 -m或 --chars选项:

$ echo -n "你好" | wc -m

输出:

关于shell - 如何使用shell计算UTF-8编码的文件中的汉字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31563546/

相关文章：

bash - 从串口读取并以十六进制存储