php - 如果重复在括号中,则可变长度后视编译。为什么?

标签 php regex pcre

问题

PHP 使用 PCRE正则表达式库,不支持后视中的重复。

如果重复出现在回顾中(例如,(?<=\d+)),PHP 通常会发出这样的警告:

Warning: preg_match_all(): Compilation failed: lookbehind assertion is not fixed length at offset 7 in lookbehind.php on line 10

但是,我发现了一个编译在我认为应该失败的时候并没有失败的情况。

如预期的那样,这些无法编译:

  • /(?<=X*)a/
  • /(?<=X+)a/
  • /(?<=(X)*)a/

然而,/(?<=(X)+)a/编译。这在功能上应该等同于 /(?<=(X){1,})a/ ,它也编译。另一方面,如果我真的给那个范围添加了一个上限
(例如 /(?<=(X){1,2})a/ ),编译失败。我想/(?<=(X)+)a//(?<=(X){1,})a/也应该编译失败,但他们没有。为什么不呢?

实验

这是一些代码:

$str = 'aXaaXXaaaXXXaaaa';

$regex = '/(?<=((?:X)+))a+/';

preg_match_all($regex, $str, $matches, PREG_OFFSET_CAPTURE|PREG_SET_ORDER);
print_r($matches);

我稍微复杂化了模式以在多个 X 周围添加一个捕获组秒。这是我的结果:

Array (
    [0] => Array (
            [0] => Array (
                    [0] => aa
                    [1] => 2
                )
            [1] => Array (
                    [0] => X
                    [1] => 1
                )
        )
    [1] => Array (
            [0] => Array (
                    [0] => aaa
                    [1] => 6
                )
            [1] => Array (
                    [0] => X
                    [1] => 5
                )
        )
    [2] => Array (
            [0] => Array (
                    [0] => aaaa
                    [1] => 12
                )
            [1] => Array (
                    [0] => X
                    [1] => 11
                )
        )
)

它明显匹配 a接下来是X s,这是正确的。但是,子模式 1 似乎只匹配一个 X。 , 不是所有的人。如果我添加 a在 lookbehind 的开头,以便它必须找到所有 X介于两者之间,这是我的结果:

$regex = '/(?<=(a(?:X)+))a+/';
Array (
    [0] => Array (
            [0] => Array (
                    [0] => aa
                    [1] => 2
                )
            [1] => Array (
                    [0] => aX
                    [1] => 0
                )
        )
)

它只匹配一次(只有一个 X )。实际上,(X)+(X){1,}正在减少到 (X){1} (由于其固定长度,这是允许的)。

结论

我讨厌哭,“ bug !”一旦我发现某些东西不符合我的预期,但它确实看起来像一个。该模式没有像我预期的那样被拒绝,即使它是一个有效模式,它的行为也不像我预期的那样。

所以我问:

  • 它应该以这种方式运行是否有正当理由?
  • 为什么这适用于 +但不是 *
  • 为什么括号很重要:X+失败; (X)+允许吗?

非常感谢任何见解。谢谢。

最佳答案

这不是 PHP 错误。如果它是一个错误(并且看起来确实像一个错误),那么它就是一个 PCRE 错误,应该在那里报告。但是,请检查 phpinfo() 中的 PCRE 版本,并将其与最新版本进行比较。如果它不是最新的,请尝试在发布错误报告之前直接在最新的 PCRE 中运行相同的正则表达式。

关于php - 如果重复在括号中,则可变长度后视编译。为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11814045/

相关文章:

php - 如何在php中使用 'use',出现 fatal error

php - 我如何使用 php 获取多维数组中的特定值?

我的查询字符串的正则表达式只匹配一个值

regex - 如何在 Perl 正则表达式中捕捉一个点?

c - 在递归函数中使用 libpcre

php - 如何添加到关联数组

regex - Elasticsearch:在字段上运行聚合并使用不匹配值的正则表达式过滤掉特定值

python - 为什么 re.search(r'(ab* )',' aaAaABBbbb',re.I) 在 python 中给出结果 'a' 而不是 'ABBbbb' 尽管使用了 're.I'?

PHP 正则表达式 preg_match_all : Capturing text between multiple square brackets

php - 尝试将字段上的提交文本添加到我的数据库(localhost,phpmyadmin,mysql)中