java - 为什么 Java 正则表达式引擎会在 + 重复时抛出 StringIndexOutOfBoundsException?

标签 java regex fibonacci nested-reference

我编写了一个正则表达式模式来查找斐波那契数列(不管为什么,我就是这么做的)。它按预期工作得很好(see on ideone.com):

    String FIBONACCI = 
        "(?x) .{0,2} | (?: (?=(\\2?)) (?=(\\2\\3|^.)) (?=(\\1)) \\2)++ . ";

    for (int n = 0; n < 1000; n++) {
        String s = new String(new char[n]);
        if (s.matches(FIBONACCI)) {
            System.out.print(n + " ");
        }
    } // 0 1 2 3 5 8 13 21 34 55 89 144 233 377 610 987 

A possessive重复(即主“循环”上的 ++)至关重要,因为您不希望使用此匹配算法进行回溯。但是,使重复可回溯(即仅在主“循环”上使用 +)不会导致不匹配,而是会导致运行时异常!!! ( as seen on ideone.com ):

Exception in thread "main" java.lang.StringIndexOutOfBoundsException:
    String index out of range: -1

    at java.lang.String.charAt(String.java:686)
    at java.lang.Character.codePointAt(Character.java:2335)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3344)
    at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:3994)
    at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:3966)
    at java.util.regex.Pattern$GroupCurly.match(Pattern.java:3916)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4114)
    at java.util.regex.Matcher.match(Matcher.java:1127)
    at java.util.regex.Matcher.matches(Matcher.java:502)
    at java.util.regex.Pattern.matches(Pattern.java:930)
    at java.lang.String.matches(String.java:2090)

有人能解释一下这里发生了什么吗?这是 Java 正则表达式引擎中的错误吗?

最佳答案

错误 ID 6984178

有许多与引擎抛出 StringIndexOutOfBoundsException ( see: search results ) 相关的错误。特别是这个错误已被报告并被内部接受为 Bug ID 6984178(这可能需要一段时间才能显示出来在外部数据库中)。

这是一个重现错误的更简单的模式 (see also on ideone.com):

System.out.println(
   "abaab".matches("(?x) (?: (?=(a+)) \\1 b )* x")
); // StringIndexOutOfBounds: -1

请注意,使用 *?*+ 只会按预期返回 false

看起来这个问题是由在先行中引用捕获组时尝试回溯贪婪重复触发的:越界索引是第一个和第二个 a+ 之间的长度差异(例如 “aabaaaaab” 得到 -3)。

可能需要调试 java.util.regex.Pattern source code查明错误的确切性质。


探索斐波那契形态

在Java引擎上,贪心回溯+

这里有一个更详细的片段来展示引擎在这种模式下是多么疯狂:

String FIBONACCI = 
    "(?x) .{0,2} | (?: (?=(\\2|^)) (?=(\\2\\3|^.)) (?=(\\1)) \\2)+ . ";

for (int n = 0; n < 1000; n++) {
    String s = new String(new char[n]);
    try {
        if (s.matches(FIBONACCI)) {
            System.out.printf("%n%s", n);
        }
    } catch (StringIndexOutOfBoundsException e) {
        String index = e.getMessage().replace("String index out of range: ", "");
        System.out.printf(" <%s:%s>", n, index);
    }
}

(稍微编辑过的)输出是(as seen on ideone.com):

0 1 2 3 <5:-1>
6 <7:-1> ... <12:-1> <13:-3>
14 <15:-3> ... <33:-3> <34:-8>
35 <36:-8> ... <88:-8> <89:-21>
90 <91:-21> ... <232:-21> <233:-55>
234 <235:-55> ... <609:-55> <610:-144>
611 <612:-144> ...

因此,引擎会以某种方式尝试访问位于 -1、-3、-8、-21、-55、-144 等处的字符串索引。请注意,这些都是其他斐波那契数,但都是负数。另请注意,除了前几个数字之外,其余匹配项(6、14、35 等)不是斐波那契数。


在 .NET 引擎上,贪婪回溯 +

虽然该模式最初是在考虑所有格量词的必要性的情况下编写的,但实际上回溯重复仍会产生正确的答案(假设引擎不像 Java 那样有问题)。这是 .NET 引擎 ( see also on ideone.com ) 上的 C# 实现:

Regex r = new Regex(
  @"(?x) ^.{0,1}$ | ^(?: (?=(\2?)) (?=(\2\3|^.)) (?=(\1)) \2)+ . $ "
);

for (int n = 0; n < 1000; n++) {
  if (r.IsMatch("".PadLeft(n))) {
    Console.Write("{0} ", n);
  }
}
// 0 1 2 3 5 8 13 21 34 55 89 144 233 377 610 987 

如您所见,即使使用回溯 +“循环”,输出也是正确的。事实上,正是因为它是一个回溯循环,特殊情况可以仅限于 .{0,1} 而不是 .{0,2}


在 Java 引擎上,不情愿回溯 +?

这在 Java 中按预期工作。此外,因为它不情愿,我们还可以将特殊情况限制为 .{0,1} ( see also on ideone.com ):

String FIBONACCI = 
        "(?x) .{0,1} | (?: (?=(\\2|^)) (?=(\\2\\3|^.)) (?=(\\1)) \\2)+? . ";

关于算法

公式

该模式利用了 Second Identity of Fibonacci Numbers :

alt text

这可以通过归纳来证明。

模式

让我们使用这个版本的模式(它在 Java 中工作,并且当锚定时,也在 C# 中工作):

                                                     summation 
free-space!                                            "loop"
    ↓                                                     ↓
   (?x) .{0,1} | (?: (?=(\2|^)) (?=(\2\3|^.)) (?=(\1)) \2)+? .
        \____/   \___________________________________/  ↑    ↑  
      base case      inductive case                    +Fi  +1
     for n = 0,1
                     (assertions don't "count" toward sum)!
                        $1 := $2    (or initialized with 0)
                        $2 := $2+$3 (or initialized with 1)
                        $3 := $1    (a temporary variable for the "swap")

斐波那契数列的生成非常简单,基于 [$1, $2] := [$2, $2+$1] 转换。由于断言是按顺序执行的,因此引入了一个临时变量(就像单赋值“伪代码”版本一样)。

关于java - 为什么 Java 正则表达式引擎会在 + 重复时抛出 StringIndexOutOfBoundsException?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3698407/

相关文章:

algorithm - 斐波那契数的最佳霍夫曼代码

python - 在 Python 中计算斐波那契数列

c - 在 C 中使用 GMP 5.0.2 的斐波那契函数

java - 如何访问java属性文件

Java应用程序中启动Java应用程序服务器

javascript - 使用 JavaScript 更改 HTML 中的日期格式

c# - RegEx 帮助匹配运算符

java - Servlet 的 JDBC 连接池

java - 如何将参数传递给父类(super class)?

javascript - 拆分字符串包括正则表达式匹配