我正在尝试快速学习中文。一个很好的方法是在阅读出现的文本之前学习每个字符。
我想要一个读取文本文件、识别每个汉字(或汉字)并按出现次数对它们进行分类的函数。
在编程方面我完全是菜鸟,但我准备尝试使用 Python 或任何其他我可以快速学习的语言。
例如输入:
我妹妹现在在北京
输出:
在 - 2
妹 - 2
我 - 1
现 - 1
北 - 1
京 - 1
提醒一下,尽管日常使用 5,000 个绰绰有余,但仍有 40,000 多个汉字。
最佳答案
使用python3:
from collections import Counter
print(Counter(open("test.txt").read()))
Counter({'妹': 2, '在': 2, '现': 1, '京': 1, '我': 1, ' ': 1, '北': 1}
在 python 2 中使用 io.open
:
from io import open
print(Counter(open("test.txt").read()))
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})
关于python - 计算文本文件中每个汉字的出现次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33946287/