java - 将正则表达式模式重构为 Java flavor 模式

标签 java regex refactoring

我在 regex101.com 上创建了一个正则表达式模式: https://regex101.com/r/cMvHlm/7/codegen?language=java

但是,该正则表达式似乎不适用于我的 Java 程序(我使用 spring 工具套件作为 IDE):

@Test
    public void testRegex() {
        //Pattern referenceCodePattern = Pattern.compile("((\\h|\\:)+)(([\u00DFA-Za-z0-9-_#\\\\\\/])+)(([[:punct:]])?)");
        Pattern pattern = Pattern.compile(""
                + "(?:\\s+|chiffre|job-id|job-nr[.]|job-nr|\\bjob id\\b|job nr[.]|jobnummer|jobnr[.]|jobid|jobcode|job nr.|ziffer|kennziffer|kennz.|referenz code|referenz-code|"
                + "referenzcode|ref[.] nr[.]|ref[.] id|ref id|ref[.]id|ref[.]-nr[.]|ref[.]- nr[.]|"
                + "referenz nummer|referenznummer|referenz nr[.]|stellenreferenz| referenz-nr[.]|referenznr[.]|referenz|referenznummer der stelle|id#|id #|stellenausschreibungen|" 
                + "stellenausschreibungs\\s?nr[.]|stellenausschreibungs-nr[.]|stellenausschreibungsnr[.]|stellenangebots id|stellenangebots-id|stellenangebotsid|stellen id|stellen-id|stellenid|stellenreferenz|"
                + "stellen-referenz|ref[.]st[.]nr[.]|stellennumer|\\bst[.]-nr[.]\\b|\\bst[.] nr[.]\\b|kenn-nr[.]|positionsnummer|kennwort|stellenkey|stellencode|job-referenzcode|stellenausschreibung|"
                + "bewerbungskennziffer|projekt id|projekt-id|reference number|reference no[.]|reference code|job code|job id|job vacancy no[.]|job-ad-number|auto req id|job ref|\\bstellenausschreibung nr[.]\\b)"
                + ":?(?:\\w*)(?:\\s*)([A-Z]*\\s*)([!\"#$%&'()*+,\\-.\\/:;<=>?@[\\]^_`{|}~]*\\w*[!\"#$%&'()*+,\\-.\\/:;<=>?@[\\]^_`{|}~]*\\w*[!\"#$%&'()*+,\\-.\\/:;<=>?@[\\]^_`{|}~]*\\w*[!\"#$%&'()*+,\\-.\\/:;<=>?@[\\]^_`{|}~]*)?");

        String line = "Referenznummer: INDUSTRY Kontakt: ZAsdfsdfS Herr Andrafgdh Neue Str. 7 21244 Buchholz +42341 22322 mdjob.bu44lz@zaqusssis.de Stellenanzeige teilen: Jetzt online bewerben! oder bewerben Sie sich mit\n" +
            "Geben Sie bei Ihrer Bewerbung die Stellenreferenz und die Stellenbezeichnung an! \n" +
            "Stellenreferenz:   21533448-JOtest\n\n" +
            "Stellenausschreibung Nr. PD-666/19";


          // Create a Pattern object
          //Pattern r = Pattern.compile(pattern);
          Matcher m = pattern.matcher(line);
          if (m.find( )) {
             System.out.println("Found value: " + m.group(0) );
             System.out.println("Found value: " + m.group(1) );
             System.out.println("Found value: " + m.group(2) );
          }else {
             System.out.println("NO MATCH");
          }                 
    }

我收到以下错误:

    java.util.regex.PatternSyntaxException: Unclosed character class near index 1337

    at java.util.regex.Pattern.error(Pattern.java:1957)
    at java.util.regex.Pattern.clazz(Pattern.java:2550)
    at java.util.regex.Pattern.clazz(Pattern.java:2506)
    at java.util.regex.Pattern.clazz(Pattern.java:2506)
    at java.util.regex.Pattern.clazz(Pattern.java:2506)
    at java.util.regex.Pattern.sequence(Pattern.java:2065)
    at java.util.regex.Pattern.expr(Pattern.java:1998)
    at java.util.regex.Pattern.group0(Pattern.java:2907)
    at java.util.regex.Pattern.sequence(Pattern.java:2053)
    at java.util.regex.Pattern.expr(Pattern.java:1998)
    at java.util.regex.Pattern.compile(Pattern.java:1698)
    at java.util.regex.Pattern.<init>(Pattern.java:1351)
    at java.util.regex.Pattern.compile(Pattern.java:1028)

有没有办法找出索引 1337 在哪里?

最佳答案

正则表达式的主要问题是 [] 都必须在 Java 正则表达式的字符类中转义,因为它们用于形成字符类联合,并且交叉路口,在那里很“特别”。

另一个问题是 [.]\b 模式无法按预期工作,因为非单词字符后面的单词边界将需要紧邻当前位置右侧的单词字符。您需要一个 \B ,而不是 \b

您需要转义 Java 正则表达式模式中的 / 字符。

您不必在正则表达式末尾重复该模式,您可以在使用非捕获模式包装重复模式后使用限制性 {0,3} 量词“重复”它组,(?:...)

考虑使用 while block 来获取所有匹配项。您可以使用 boolean 标志来查看是否有任何匹配项。

此外,您可能想使用 \\s+ 替代方案作为第一组中的最后一个,它太通用了,但我暂时将其保留在开头。

使用

Pattern pattern = Pattern.compile(""
                + "(?:\\s+|chiffre|job-id|job-nr[.]|job-nr|\\bjob id\\b|job nr[.]|jobnummer|jobnr[.]|jobid|jobcode|job nr\\.|ziffer|kennziffer|kennz\\.|referenz code|referenz-code|"
                + "referenzcode|ref[.] nr[.]|ref[.] id|ref id|ref[.]id|ref[.]-nr[.]|ref[.]- nr[.]|"
                + "referenz nummer|referenznummer|referenz nr[.]|stellenreferenz| referenz-nr[.]|referenznr[.]|referenz|referenznummer der stelle|id#|id #|stellenausschreibungen|" 
                + "stellenausschreibungs\\s?nr[.]|stellenausschreibungs-nr[.]|stellenausschreibungsnr[.]|stellenangebots id|stellenangebots-id|stellenangebotsid|stellen id|stellen-id|stellenid|stellenreferenz|"
                + "stellen-referenz|ref[.]st[.]nr[.]|stellennumer|\\bst[.]-nr[.]\\B|\\bst[.] nr[.]\\B|kenn-nr[.]|positionsnummer|kennwort|stellenkey|stellencode|job-referenzcode|stellenausschreibung|"
                + "bewerbungskennziffer|projekt id|projekt-id|reference number|reference no[.]|reference code|job code|job id|job vacancy no[.]|job-ad-number|auto req id|job ref|\\bstellenausschreibung nr[.]\\B)"
                + ":?\\w*\\s*([A-Z]*\\s*)([!\"#$%&'()*+,\\-./:;<=>?@\\[\\]^_`{|}~]*(?:\\w*[!\"#$%&'()*+,\\-./:;<=>?@\\[\\]^_`{|}~]*){0,3})?");

String line = "Referenznummer: INDUSTRY Kontakt: ZAsdfsdfS Herr Andrafgdh Neue Str. 7 21244 Buchholz +42341 22322 mdjob.bu44lz@zaqusssis.de Stellenanzeige teilen: Jetzt online bewerben! oder bewerben Sie sich mit\n" +
            "Geben Sie bei Ihrer Bewerbung die Stellenreferenz und die Stellenbezeichnung an! \n" +
            "Stellenreferenz:   21533448-JOtest\n\n" +
            "Stellenausschreibung Nr. PD-666/19";


Matcher m = pattern.matcher(line);
boolean found = false;
while (m.find()) {
     found = true;
     System.out.println("Found value: " + m.group(0) );
     System.out.println("Found value: " + m.group(1) );
     System.out.println("Found value: " + m.group(2) );
     System.out.println(" ----------------------- " );
}
if (!found) {
     System.out.println("NO MATCH");
}                 

参见this Java demo .

关于java - 将正则表达式模式重构为 Java flavor 模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56272226/

相关文章:

java - 如何使用显式链接(使用三重链接数据结构)实现优先级队列?

python - 为什么\b\w+\b 不匹配一个词?

java - Java中的正则表达式非法字符

regex - 无法使正则表达式起作用

java - eclipse JDT : Is there a refactoring to replace direct field accesses with setter/getter methods?

refactoring - 用更动态的东西替换硬编码类是否很常见?

java - 如何以层次结构方法实现我的代码?

java - 即使 map 显示没有任何错误,也不会调用 onMapReady

Java反编译器怎么用?

java - 如何从后台通过连接状态更改 Firebase 数据库?