我的正则表达式应该匹配 a
、b
、c
或 d
的任意序列,或者字符 x
;字符串 "abcdxabcd"
应该有三个单独的匹配项 "abcd"
、"x"
和 "abcd"
.
我不明白以下正则表达式之间的区别,我正在寻找括号如何影响结果的详细解释。对于测试字符串 "abcdxabcd"
:
/[abcd]+|x/
这个似乎可行。接下来的四个没有。/(d|[abc])+|x/
返回三个匹配组 {d}、{[empty]} 和 {d}/(d|[abc]+)+|x/
返回三个匹配组 {d}、{[empty]} 和 {d}/(d|[abc]+)+|(x)/
返回三个匹配组 {d, [empty]}, {[empty],x}, and {d,[空]}/((d|[abc]+)+|(x))/
返回三个匹配组 {abcd, d, [empty]}, {x,[empty],x} , 和 {abcd, d, [空]}
我不太熟悉匹配组的概念,这是我在这里提出的问题的一部分。我的目标不是找到一个有效的表达方式,而是了解这些情况之间的差异,并了解那些不起作用的情况实际上在做什么。
最佳答案
========= /[abcd]+|x/
这绝对有效,这个表达式匹配[abcd]+
或者 |
匹配 x
. [abcd]+
匹配字母 a
的一种或多种组合, b
, c
和 d
. x
匹配文字 x
.
因此,当您针对 abcdxabcd
运行它时, [abcd]+
第一场比赛abcd
, 然后 x
匹配文字 x
然后 [abcd]+
匹配第二个 abcd
.
现在您完全正确了,这些是单独的匹配项,换句话说,如果您要使用 /^[abcd]+|x$/
作为正则表达式 (注意 anchor ^
和 $
) 你会注意到这与 abcdxabcd
不匹配.
========= /(d|[abc])+|x/
这是完全不同的表达方式。 (d|[abc])+
匹配 d
或 [abc]
并捕获捕获组号 1 中的任何匹配项,但由于 +
,此表达式重复一次或多次因此捕获组包含与其内部内容匹配的最后一个内容。
所以当你针对 abcdxabcd
运行它时, a
匹配 [abc]
然后 b
也是,那么c
也是,但是然后 d
匹配 d
这是整个组匹配的最后一件事(d|[abc])+
所以d
是组匹配的值,因此匹配组 1,即 d
.
现在是 x
与 x
匹配并且该组没有捕获任何东西,所以第二个捕获组是空的。
现在最后的捕获组与第一个捕获组的工作方式相同,所以我们得到:{d}
, {}
和 {d}
.
我可以继续并一一解释其余的表达式,但这需要大量的输入。我希望你能看到这对其他人是如何起作用的。
总结:当一个组不匹配时,它捕获空字符串(我不知道这是否真的发生在Ruby代码中,或者它只是被Rubular显示为清晰度)。某组最后捕获到的是保留的,如果该组匹配多次,则之前捕获的就没有了。
编辑: 捕获组只是捕获或记住它内部的表达式匹配的内容,因此您可以通过反向引用在正则表达式本身中引用它,或者在替换字符串中引用它.
啊哈我忘了告诉你捕获组是从 1 开始编号的,并且是从左到右计数的。
让我举个例子:如果你想匹配一个在其自身之后立即重复的字符,你可以使用:
(.)\1
.
匹配单个字符 ()
捕获组 1 中匹配的内容,然后我们尝试使用 \1
匹配组 1 匹配的相同内容这称为反向引用。
另一个例子:假设你想再匹配一个由破折号分隔的字符,像这样:abc-53
并且您想在替换字符串中引用它们。
你会匹配:
([^-]+)-([^-]+)
([^-]+)
匹配一个或多个不是破折号的字符 -
,现在我们使用在替换字符串中捕获的内容,如下所示:
$2 == $1
这将导致转换 abc-53
进入53 == abc
.
捕获组和其他正则表达式功能的主题可能需要大量解释,您可以查看regular-expressions.info获取更多信息。
关于ruby - 括号分组如何影响正则表达式结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19141544/