python - 使用正则表达式在 Python 中进行字数统计

标签 python regex count word

使用正则表达式计算文档中英文单词的正确方法是什么?

我试过:

words=re.findall('\w+', open('text.txt').read().lower())
len(words)

但似乎我遗漏了几个字(与 gedit 中的字数相比)。 我做得对吗?

非常感谢!

最佳答案

使用\w+ 不会正确计算包含撇号或连字符的单词,例如“can't”将被算作 2 个单词。它还会计算数字(数字串); “12,345”和“6.7”将分别算作 2 个单词(“12”和“345”、“6”和“7”)。

关于python - 使用正则表达式在 Python 中进行字数统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6017948/

相关文章:

mysql - 按位置计算用户回复次数的最有效方法是什么?

c - 文件中的单词计数,如 C 中的 linux wc 命令

python - appengine 图像 api 错误

python - 为什么这个参数在sklearn的Pipeline中无效?

Java删除转义双引号

ruby 正则表达式 : How do I replace doubly escaped characters such as\\n with\n

regex - Powershell 正则表达式 - 仅当包含字符串 C 时才在字符串 A 和字符串 B 之间替换

sql - 如何查找组的行数?

python - Visual Code Studio 中类似 PyCharm 的控制台

python - 如何 reshape 数据,以便将具有多个观察值的 ID 按 ID 分组为所有可能的观察对?