这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234 ? 56 是否限定 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起始点在哪里?
import re
pattern = re.compile(r'\d{1,3}(?=(\d{3})+(?!\d))')
a = pattern.findall("The number is: 123456") ; print(a)
在第一阶段添加逗号分隔符,如 123,456。
a = pattern.findall("The number is: 123456") ; print(a)
results = pattern.finditer('123456')
for result in results:
print ( result.start(), result.end(), result)
最佳答案
My question is why it CANNOT be
234
from1-234-56
?
这是不可能的,因为 (?=(\d{3})+(?!\d))
要求 3 位数字序列出现在 1-3 位数字序列之后。 56
(您想象的场景中的最后一个数字组)是一个 2 位数字组。由于量词可以是惰性的或贪婪的,所以您不能将一位、两位和三位数字组与 \d{1,3}
匹配。要从 234
获取 123456
,您需要为其专门定制的正则表达式: \B\d{3}
、 (?<=1)\d{3}
甚至 \d{3}(?=\d{2}(?!\d))
。
Does
56
match the(?!\d))
pattern? Where is the beginning point that (?!\d)) will look for?
不,这是一个负向前瞻,它不匹配,它只检查输入字符串中当前位置之后是否没有数字。如果有数字,则匹配失败(未找到并返回结果)。
关于前瞻的更多说明:它位于 (\d{3})+
子模式之后,因此正则表达式引擎在最后 3 位数字组之后开始搜索数字,如果找到该数字则匹配失败(因为它是负前瞻)。简而言之,(?!\d)
是此正则表达式中的数字结束/尾随边界。
更详细的分割:
-
\d{1,3}
- 1 到 3 位数字序列,尽可能多(使用贪婪量词) -
(?=(\d{3})+(?!\d))
- 正向前瞻 ((?=...)
),检查之前是否匹配的 1-3 位数字序列-
(\d{3})+
- 1 个或多个 (+
) 恰好 3 位数字的序列... -
(?!\d)
- 后面不跟数字。
-
前瞻不匹配,不消耗字符,但您仍然可以捕获其中的内容。执行前瞻时,正则表达式索引与之前的字符相同。 通过您的正则表达式和输入,您可以将 123
与 \d{1,3}
进行匹配,这样您就得到了 3 位数字序列 ( 456
)。但 456
在前瞻中捕获,并且 re.findall
在设置捕获组的情况下仅返回捕获的文本。
要添加逗号作为数字分组符号,请使用
rx = r'\d(?=(?:\d{3})+(?!\d))'
参见 IDEONE demo
关于python正则表达式向前看正+负,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33580468/