regex - 为什么正则表达式捕获组索引为一个？

我的一部分是担心这个问题会被关闭，但我真的对某些事情感到困惑。在我使用过的每种语言的正则表达式中，捕获组的索引为 1，即使语言的其余部分索引为 0。我想到了会导致 1-indexing 的设计决策，这通常是为了降低非技术人员的进入阈值，但是当涉及到 regex 时，它已经是 hell 般的和难以理解的，这个论点似乎并不真的坚持。

此外，由于每种语言似乎对正则表达式都有自己的小调整，因此让捕获组索引与其他语言保持一致似乎是明智的。

还有其他解释吗？我突然想到 1 索引是正则表达式内部更深层次的东西(比如固有地占据零点的东西)或沿着这些线的东西的结果。也就是说，我找不到关于这个特殊问题的任何文档。是否有任何正则表达式大师知道这里发生的更深层次的事情，或者它只是严重遗留代码中的某些事情？

最佳答案

In every language's regex that I've used, the capturing groups are indexed at one, even when the rest of the language is indexed at zero.

我想，在其他语言中，您指的是数组和其他容器类型。那么，在正则表达式中，捕获组确实以 0 开头, 但一开始并不明显。

捕获组 0，包含完整的匹配项，其上的捕获组是您可以看到的使用括号创建的组 - () .

因此，在下面的正则表达式中，对于字符串 - "ab123cd" :

ab(\d+)cd

实际上有两组:

组 0 - 完全匹配 - ab123cd
第 1 组 - 是您使用 () 捕获的组- 123

然后，组按照左括号出现的顺序编号 ( .

因此，对于下面的正则表达式(增加了可读性的空格):

ab(    x   (\d+))cd
  ^        ^
  |        |
 group 1  group 2

将上述正则表达式应用于字符串时 - "abx123cd" ，你将有以下组:

第 0 组 - 完成比赛 - abcx123cd
第 1 组 - 第一个左括号中的模式 - x123
第 2 组 - 第二个左括号中的模式 - 123

当您在 Java 中映射这些正则表达式时，您可以使用以下方法获取所有这些组:

Matcher.group() 得到第 0 组(注意，没有参数)，和
Matcher.group(int) 获取其余组(注意 int 参数，为各个组取值)

关于regex - 为什么正则表达式捕获组索引为一个？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17791639/

regex - 为什么正则表达式捕获组索引为一个？

上一篇：wpf - 如何使椭圆跟随 Canvas 上的曲线

下一篇：pdf - DSS、VRI——我的结构是什么？