我的一部分是担心这个问题会被关闭,但我真的对某些事情感到困惑。在我使用过的每种语言的正则表达式中,捕获组的索引为 1,即使语言的其余部分索引为 0。我想到了会导致 1-indexing 的设计决策,这通常是为了降低非技术人员的进入阈值,但是当涉及到 regex 时,它已经是 hell 般的和难以理解的,这个论点似乎并不真的坚持。
此外,由于每种语言似乎对正则表达式都有自己的小调整,因此让捕获组索引与其他语言保持一致似乎是明智的。
还有其他解释吗?我突然想到 1 索引是正则表达式内部更深层次的东西(比如固有地占据零点的东西)或沿着这些线的东西的结果。也就是说,我找不到关于这个特殊问题的任何文档。是否有任何正则表达式大师知道这里发生的更深层次的事情,或者它只是严重遗留代码中的某些事情?
最佳答案
In every language's regex that I've used, the capturing groups are indexed at one, even when the rest of the language is indexed at zero.
我想,在其他语言中,您指的是数组和其他容器类型。那么,在正则表达式中,捕获组确实以 0
开头, 但一开始并不明显。
捕获组 0,包含完整的匹配项,其上的捕获组是您可以看到的使用括号创建的组 - ()
.
因此,在下面的正则表达式中,对于字符串 - "ab123cd"
:
ab(\d+)cd
实际上有两组:
- 组 0 - 完全匹配 -
ab123cd
- 第 1 组 - 是您使用
()
捕获的组-123
然后,组按照左括号出现的顺序编号 (
.
因此,对于下面的正则表达式(增加了可读性的空格):
ab( x (\d+))cd
^ ^
| |
group 1 group 2
将上述正则表达式应用于字符串时 - "abx123cd"
,你将有以下组:
- 第 0 组 - 完成比赛 -
abcx123cd
- 第 1 组 - 第一个左括号中的模式 -
x123
- 第 2 组 - 第二个左括号中的模式 -
123
当您在 Java
中映射这些正则表达式时,您可以使用以下方法获取所有这些组:
-
Matcher.group()
得到第 0 组(注意,没有参数),和 -
Matcher.group(int)
获取其余组(注意int
参数,为各个组取值)
关于regex - 为什么正则表达式捕获组索引为一个?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17791639/