python - 计算文本文件中每个汉字的出现次数

标签 python text character

我正在尝试快速学习中文。一个很好的方法是在阅读出现的文本之前学习每个字符。

我想要一个读取文本文件、识别每个汉字(或汉字)并按出现次数对它们进行分类的函数。

在编程方面我完全是菜鸟,但我准备尝试使用 Python 或任何其他我可以快速学习的语言。

例如输入:

我妹妹现在在北京

输出:

在 - 2
妹 - 2
我 - 1
现 - 1
北 - 1
京 - 1

提醒一下,尽管日常使用 5,000 个绰绰有余,但仍有 40,000 多个汉字。

最佳答案

使用python3:

from collections import Counter

print(Counter(open("test.txt").read()))
Counter({'妹': 2, '在': 2, '现': 1, '京': 1, '我': 1, ' ': 1, '北': 1}

在 python 2 中使用 io.open:

from io import open
print(Counter(open("test.txt").read()))
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})

关于python - 计算文本文件中每个汉字的出现次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33946287/

相关文章:

python - 在 Python 中,为什么计数器会出现 'undefined local variable' 错误,列表却不会?

python - 将 Autobahn 扭曲安装到 python 3.4 上

html - 如何让 HTML Tidy 在关闭标签之前不放置换行符?

python - 调整图像大小的最快方法

Python 方法不返回

excel - 循环字符串,在分隔符之间提取数据

css - 如何将文本添加到二十十七子主题中的自定义 WordPress header ?

objective-c - 如何在 Objective-C(适用于 iOS)中获取两个字符串之间的第一个不同字符?

java - 在java中对二维数组进行排序(对所有字母进行排序)

带有西类牙字符的 Git 字符编码