cat doc.txt and the following characters will show:
你好 Hello!
这是中文。This is a Chinese doc.
我可以使用命令
wc -w doc.txt
但它会显示:
8 doc.txt
此命令取字符 你好 和 这是中文 两者都是一个词,而实际上 你好 是两个中文单词和这是中文 四.
我想要的是让这些中文单词正确计数(示例中有 12 个单词),有人可以帮忙吗?
最佳答案
您可以使用 -m
或 --chars
选项:
$ echo -n "你好" | wc -m
输出:
2
关于shell - 如何使用shell计算UTF-8编码的文件中的汉字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31563546/