python - 在python中使用正则表达式将文本文件拆分为单词

标签 python regex

Python 全新!!!我得到了一个文本文件 https://en.wikipedia.org/wiki/Character_mask我需要将文件拆分为单个单词(超过一个字母，由多个其他字符之一分隔)我尝试使用正则表达式，但似乎无法正确拆分它而不出现错误。这是我到目前为止的代码，任何人都可以帮我修复这个正则表达式

import re 
file = open("charactermask.txt", "r")
text = file.read()
message = print(re.split(',.-\d\c\s',text))
print (message)
file.close()

最佳答案

您可以使用 re.findall 和以下正则表达式模式来查找长度超过 1 个字符的所有单词。

更改:

message = print(re.split(',.-\d\c\s',text))

至:

message = re.findall(r'[A-Za-z]{2,}', text))

关于python - 在python中使用正则表达式将文本文件拆分为单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52510524/

上一篇：python - 了解条件正则表达式 python 中的 else 路径如何工作

下一篇：python - 如何使用 numpy 获取范围的最小值和最大值？

相关文章：

python - 如何在图中表示 bool 数据

python - 获取 Instagram 关注者

java - java中的正则表达式 : error for str. 替换 ("\s+", "")

javascript - 从字符串创建有效 ID 的函数。正则表达式

javascript - JavaScript中的分词器和匹配器

python - CentOS 上 pip 包管理器的问题

python - 以编程方式编辑 Python 源代码

python - 更改 matplotlib pyplot 图例中线条的线宽

php - 将 $x<y$ 替换为 $x < y$

java - 解析由空格分隔、有序但可选元素组成的字符串