考虑以下玩具示例。我想在 Go 中用正则表达式匹配名称,其中名称是字母序列 a
,由单个 #
分隔,所以 a#a#aaa
有效,但 a#
或 a##a
无效。我可以通过以下两种方式对正则表达式进行编码:
r1 := regexp.MustCompile(`^a+(#a+)*$`)
r2 := regexp.MustCompile(`^(a+#)*a+$`)
这两个都有效。现在考虑匹配由单斜杠分隔的一系列名称的更复杂的任务。如上所述,我可以用两种方式编写代码:
^N+(/N+)*$
^(N+/)*N+$
其中 N 是去掉了 ^ 和 $ 的名称的正则表达式。由于 N 有两种情况,所以现在我可以有 4 个正则表达式:
^a+(#a+)*(/a+(#a+)*)*$
^(a+#)*a+(/a+(#a+)*)*$
^((a+#)*a+/)*a+(#a+)*$
^((a+#)*a+/)*(a+#)*a+$
问题是为什么在匹配字符串 "aa#a#a/a#a/a"
时第一个失败,而其余 3 个情况按预期工作? IE。是什么导致第一个正则表达式不匹配?完整code是:
package main
import (
"fmt"
"regexp"
)
func main() {
str := "aa#a#a/a#a/a"
regs := []string {
`^a+(#a+)*(/a+(#a+)*)*$`,
`^(a+#)*a+(/a+(#a+)*)*$`,
`^((a+#)*a+/)*a+(#a+)*$`,
`^((a+#)*a+/)*(a+#)*a+$`,
}
for _, r := range(regs) {
fmt.Println(regexp.MustCompile(r).MatchString(str))
}
}
令人惊讶的是它打印出 false true true true
最佳答案
这一定是golang正则表达式引擎的一个bug。一个更简单的测试用例是 ^a(/a+(#a+)*)*$
无法匹配 a/a#a
而 ^(a)(/a+(#a+)*)*$
有效,参见 http://play.golang.org/p/CDKxVeXW98 .
关于regex - golang 中嵌套组的正则表达式问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31663430/