python正则表达式向前看正+负

标签 python regex regex-lookarounds

这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234 ? 56 是否限定 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起始点在哪里?

import re
pattern = re.compile(r'\d{1,3}(?=(\d{3})+(?!\d))')
a = pattern.findall("The number is: 123456") ; print(a)

在第一阶段添加逗号分隔符,如 123,456。

a = pattern.findall("The number is: 123456") ; print(a)
results = pattern.finditer('123456')
  for result in results:
    print ( result.start(), result.end(), result)

最佳答案

My question is why it CANNOT be 234 from 1-234-56?

这是不可能的,因为 (?=(\d{3})+(?!\d)) 要求 3 位数字序列出现在 1-3 位数字序列之后。 56(您想象的场景中的最后一个数字组)是一个 2 位数字组。由于量词可以是惰性的或贪婪的,所以您不能将一位、两位和三位数字组与 \d{1,3} 匹配。要从 234 获取 123456 ,您需要为其专门定制的正则表达式: \B\d{3} (?<=1)\d{3} 甚至 \d{3}(?=\d{2}(?!\d))

Does 56 match the (?!\d)) pattern? Where is the beginning point that (?!\d)) will look for?

不,这是一个负向前瞻,它不匹配,它只检查输入字符串中当前位置之后是否没有数字。如果有数字,则匹配失败(未找到并返回结果)。

关于前瞻的更多说明:它位于 (\d{3})+ 子模式之后,因此正则表达式引擎在最后 3 位数字组之后开始搜索数字,如果找到该数字则匹配失败(因为它是负前瞻)。简而言之,(?!\d) 是此正则表达式中的数字结束/尾随边界

更详细的分割:

  • \d{1,3} - 1 到 3 位数字序列,尽可能多(使用贪婪量词)
  • (?=(\d{3})+(?!\d)) - 正向前瞻 ( (?=...) ),检查之前是否匹配的 1-3 位数字序列
    • (\d{3})+ - 1 个或多个 ( + ) 恰好 3 位数字的序列...
    • (?!\d) - 后面不跟数字。

前瞻不匹配,不消耗字符,但您仍然可以捕获其中的内容。执行前瞻时,正则表达式索引与之前的字符相同。 通过您的正则表达式和输入,您可以将 123\d{1,3} 进行匹配,这样您就得到了 3 位数字序列 ( 456 )。但 456 在前瞻中捕获,并且 re.findall 在设置捕获组的情况下仅返回捕获的文本。

要添加逗号作为数字分组符号,请使用

rx = r'\d(?=(?:\d{3})+(?!\d))'

参见 IDEONE demo

关于python正则表达式向前看正+负,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33580468/

相关文章:

python - 如何在 Django 的 ImageField 路径中设置变量?

python - 如何摆脱浮零(-0.0)中的负号?

Python re.findall 仅返回第一个字符

r - 匹配模式,只要它不包含特定字符串

java - 字符串中的第 N 个索引?

php - 忽略正则表达式中的特定标签 - 负向前瞻

python - 通过 python 和 jinja 获取 json 字典值

python - 将 3 列(x、y、结果)Python Pandas DataFrame 转换为结果值的 DataFrame,其中 x(唯一)作为行,y(唯一)作为列

java正则表达式获取子串

regex - 正则表达式的简单问题