python - 为什么这个正则表达式不是在所有情况下都有效?

标签 python regex

我有一个包含如下条目的文本文件:

@markwarner VIRGINIA - Mark Warner 
@senatorleahy VERMONT - Patrick Leahy NO 
@senatorsanders VERMONT - Bernie Sanders 
@orrinhatch UTAH - Orrin Hatch NO 
@jimdemint SOUTH CAROLINA - Jim DeMint NO 
@senmikelee UTAH -- Mike Lee 
@kaybaileyhutch TEXAS - Kay Hutchison 
@johncornyn TEXAS - John Cornyn 
@senalexander TENNESSEE - Lamar Alexander

我编写了以下内容以使用正则表达式删除“NO”和破折号:

import re

politicians = open('testfile.txt')
text = politicians.read()

# Grab the 'no' votes
# Should be 11 entries
regex = re.compile(r'(no\s@[\w+\d+\.]*\s\w+\s?\w+?\s?\W+\s\w+\s?\w+)', re.I)
no = regex.findall(text)

## Make the list a string
newlist = ' '.join(no)

## Replace the dashes in the string with a space
deldash = re.compile('\s-*\s')
a = deldash.sub(' ', newlist)

# Delete 'NO' in the string
delno = re.compile('NO\s')
b = delno.sub('', a)

# make the string into a list
# problem with @jimdemint SOUTH CAROLINA Jim DeMint
regex2 = re.compile(r'(@[\w\d\.]*\s[\w\d\.]*\s?[\w\d\.]\s?[\w\d\.]*?\s+?\w+)', re.I)
lst1 = regex2.findall(b)

for i in lst1:
    print i

当我运行代码时,它会捕获除 Jim DeMint 姓氏之外的推特用户名、状态和全名。我已经声明我想忽略正则表达式的大小写。

有什么想法吗?为什么表达式没有捕获这个姓氏?

最佳答案

缺少它是因为他的州名包含两个词:SOUTH CAROLINA

让你的第二个正则表达式成为这个,它应该有帮助

 (@[\w\d\.]*\s[\w\d\.]*\s?[\w\d\.]\s?[\w\d\.]*?\s+?\w+(?:\s\w+)?)

我加了

(?:\s\w+)?

这是一个可选的非捕获组,匹配一个空格后跟一个或多个字母数字下划线字符

http://regexr.com?31fv5显示它正确匹配输入,去除了 NO 和破折号

编辑: 如果您希望一个主正则表达式正确捕获和拆分所有内容,请在删除编号和破折号后使用

((@[\w]+?\s)((?:(?:[\w]+?)\s){1,2})((?:[\w]+?\s){2}))

您可以在这里玩:http://regexr.com?31fvk

1 美元可获得完整比赛,2 美元可获得 Twitter 句柄,3 美元可获得州名,4 美元可获得名字

每个捕获组的工作方式如下:

(@[\w]+?\s)

这匹配 @ 符号后跟至少一个但尽可能少的字符直到一个空格。

((?:(?:[\w]+?)\s){1,2})

这匹配并捕获了1或2个单词,应该是state。这只适用于下一 block ,它必须有两个词

((?:[\w]+?\s){2})

恰好匹配并捕获两个单词,定义为尽可能少的字符后跟一个空格

关于python - 为什么这个正则表达式不是在所有情况下都有效?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11402673/

相关文章:

python re,提取逗号之间的值

c# - 提取短语中的双引号项

python - 共享轴 (twinx) 隐藏 y 轴值

python - 使用 Python 发送电子邮件并在主题行中包含变量

python - 在 Python (PIL) 中读取带有损坏 header 的 JPEG

php - .htaccess mod_rewrite 中的加号和百分号

javascript - 使用 .replace() 的正则表达式

python - 如何替换这些 FOR 和 IF 语句以获得更好的性能?

python - 根据字段递增

javascript - 正则表达式匹配所有内容,直到删除尾随空格