问题
PHP 使用 PCRE正则表达式库,不支持后视中的重复。
如果重复出现在回顾中(例如,(?<=\d+)
),PHP 通常会发出这样的警告:
Warning: preg_match_all(): Compilation failed: lookbehind assertion is not fixed length at offset 7 in lookbehind.php on line 10
但是,我发现了一个编译在我认为应该失败的时候并没有失败的情况。
如预期的那样,这些无法编译:
-
/(?<=X*)a/
-
/(?<=X+)a/
-
/(?<=(X)*)a/
然而,/(?<=(X)+)a/
编译。这在功能上应该等同于 /(?<=(X){1,})a/
,它也编译。另一方面,如果我真的给那个范围添加了一个上限
(例如 /(?<=(X){1,2})a/
),编译失败。我想/(?<=(X)+)a/
和 /(?<=(X){1,})a/
也应该编译失败,但他们没有。为什么不呢?
实验
这是一些代码:
$str = 'aXaaXXaaaXXXaaaa';
$regex = '/(?<=((?:X)+))a+/';
preg_match_all($regex, $str, $matches, PREG_OFFSET_CAPTURE|PREG_SET_ORDER);
print_r($matches);
我稍微复杂化了模式以在多个 X
周围添加一个捕获组秒。这是我的结果:
Array (
[0] => Array (
[0] => Array (
[0] => aa
[1] => 2
)
[1] => Array (
[0] => X
[1] => 1
)
)
[1] => Array (
[0] => Array (
[0] => aaa
[1] => 6
)
[1] => Array (
[0] => X
[1] => 5
)
)
[2] => Array (
[0] => Array (
[0] => aaaa
[1] => 12
)
[1] => Array (
[0] => X
[1] => 11
)
)
)
它明显匹配 a
接下来是X
s,这是正确的。但是,子模式 1 似乎只匹配一个 X
。 , 不是所有的人。如果我添加 a
在 lookbehind 的开头,以便它必须找到所有 X
介于两者之间,这是我的结果:
$regex = '/(?<=(a(?:X)+))a+/';
Array (
[0] => Array (
[0] => Array (
[0] => aa
[1] => 2
)
[1] => Array (
[0] => aX
[1] => 0
)
)
)
它只匹配一次(只有一个 X
)。实际上,(X)+
和 (X){1,}
正在减少到 (X){1}
(由于其固定长度,这是允许的)。
结论
我讨厌哭,“ bug !”一旦我发现某些东西不符合我的预期,但它确实看起来像一个。该模式没有像我预期的那样被拒绝,即使它是一个有效模式,它的行为也不像我预期的那样。
所以我问:
- 它应该以这种方式运行是否有正当理由?
- 为什么这适用于
+
但不是*
? - 为什么括号很重要:
X+
失败;(X)+
允许吗?
非常感谢任何见解。谢谢。
最佳答案
这不是 PHP 错误。如果它是一个错误(并且看起来确实像一个错误),那么它就是一个 PCRE 错误,应该在那里报告。但是,请检查 phpinfo()
中的 PCRE 版本,并将其与最新版本进行比较。如果它不是最新的,请尝试在发布错误报告之前直接在最新的 PCRE 中运行相同的正则表达式。
关于php - 如果重复在括号中,则可变长度后视编译。为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11814045/