python - 在python中使用正则表达式将文本文件拆分为单词

标签 python regex

Python 全新!!!我得到了一个文本文件 https://en.wikipedia.org/wiki/Character_mask我需要将文件拆分为单个单词(超过一个字母,由多个其他字符之一分隔)我尝试使用正则表达式,但似乎无法正确拆分它而不出现错误。这是我到目前为止的代码,任何人都可以帮我修复这个正则表达式

import re 
file = open("charactermask.txt", "r")
text = file.read()
message = print(re.split(',.-\d\c\s',text))
print (message)
file.close()

最佳答案

您可以使用 re.findall 和以下正则表达式模式来查找长度超过 1 个字符的所有单词。

更改:

message = print(re.split(',.-\d\c\s',text))

至:

message = re.findall(r'[A-Za-z]{2,}', text))

关于python - 在python中使用正则表达式将文本文件拆分为单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52510524/

相关文章:

python - 如何在图中表示 bool 数据

python - 获取 Instagram 关注者

java - java中的正则表达式 : error for str. 替换 ("\s+", "")

javascript - 从字符串创建有效 ID 的函数。正则表达式

javascript - JavaScript中的分词器和匹配器

python - CentOS 上 pip 包管理器的问题

python - 以编程方式编辑 Python 源代码

python - 更改 matplotlib pyplot 图例中线条的线宽

php - 将 $x<y$ 替换为 $x < y$

java - 解析由空格分隔、有序但可选元素组成的字符串