ANTLR:从不同的语法调用规则

标签 antlr grammar modularity rule

是否可以从不同的语法中调用规则?
目的是在同一个文件中有两种语言,第二种语言以 (begin ...) 开头,其中 ... 是第二种语言。语法应该调用另一个语法来解析第二种语言。

例如:


grammar A;

start_rule
    :    '(' 'begin' B.program ')' //or something like that
    ;


grammar B;

program
    :   something* EOF
    ;

something
    : ...
    ;

最佳答案

您的问题可以(至少)以两种方式解释:

  • 将大文法中的规则分离成单独的文法;
  • 在您的“主要”语言(岛屿语法)中解析一种单独的语言。

  • 我假设它是第一个,在这种情况下您可以导入语法。

    选项 1 的演示:

    文件:L.g

    lexer grammar L;
    
    Digit
      :  '0'..'9'
      ;
    

    文件:Sub.g

    parser grammar Sub;
    
    number
      :  Digit+
      ;
    

    文件:root.g

    grammar Root;
    
    import Sub;
    
    parse
      :  number EOF {System.out.println("Parsed: " + $number.text);}
      ;
    

    文件:Main.java

    import org.antlr.runtime.*;
    
    public class Main {
      public static void main(String[] args) throws Exception {
        L lexer = new L(new ANTLRStringStream("42"));
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        RootParser parser = new RootParser(tokens);
        parser.parse();
      }
    }
    

    运行演示:

    bart@hades:~/Programming/ANTLR/Demos/Composite$ java -cp antlr-3.3.jar org.antlr.Tool L.g
    bart@hades:~/Programming/ANTLR/Demos/Composite$ java -cp antlr-3.3.jar org.antlr.Tool Root.g 
    bart@hades:~/Programming/ANTLR/Demos/Composite$ javac -cp antlr-3.3.jar *.java
    bart@hades:~/Programming/ANTLR/Demos/Composite$ java -cp .:antlr-3.3.jar Main
    

    这将打印:

    Parsed: 42
    

    到控制台。

    更多信息,请参见:http://www.antlr.org/wiki/display/ANTLR3/Composite+Grammars

    选项 2 的演示:

    语言中语言的一个很好的例子是正则表达式。您拥有带有元字符的“普通”正则表达式语言,但其中还有另一种:描述字符集(或字符类)的语言。

    而不是在正则表达式语法中考虑字符集的元字符(范围 - ,否定 ^ 等),您可以简单地将字符集视为由 [ 组成的单个标记。然后一切都包括] (可能在其中包含 \]!)在您的正则表达式语法中。当你偶然发现一个 CharSet您的解析器规则之一中的 token ,您调用 CharSet 解析器。

    文件:Regex.g

    grammar Regex;
    
    options { 
      output=AST;
    }
    
    tokens {
      REGEX;
      ATOM;
      CHARSET;
      INT;
      GROUP;
      CONTENTS;
    }
    
    @members {
      public static CommonTree ast(String source) throws RecognitionException {
        RegexLexer lexer = new RegexLexer(new ANTLRStringStream(source));
        RegexParser parser = new RegexParser(new CommonTokenStream(lexer));
        return (CommonTree)parser.parse().getTree();
      }
    }
    
    parse
      :  atom+ EOF -> ^(REGEX atom+)
      ;
    
    atom
      :  group quantifier?     -> ^(ATOM group quantifier?)
      |  EscapeSeq quantifier? -> ^(ATOM EscapeSeq quantifier?)
      |  Other quantifier?     -> ^(ATOM Other quantifier?)
      |  CharSet quantifier?   -> ^(CHARSET {CharSetParser.ast($CharSet.text)} quantifier?)
      ;
    
    group
      :  '(' atom+ ')' -> ^(GROUP atom+)
      ;
    
    quantifier
      :  '+'
      |  '*'
      ;
    
    CharSet
      :  '[' (('\\' .) | ~('\\' | ']'))+ ']'
      ;
    
    EscapeSeq
      :  '\\' .
      ;
    
    Other
      :  ~('\\' | '(' | ')' | '[' | ']' | '+' | '*')
      ;
    

    文件:CharSet.g

    grammar CharSet;
    
    options { 
      output=AST;
    }
    
    tokens {
      NORMAL_CHAR_SET;
      NEGATED_CHAR_SET;
      RANGE;
    }
    
    @members {
      public static CommonTree ast(String source) throws RecognitionException {
        CharSetLexer lexer = new CharSetLexer(new ANTLRStringStream(source));
        CharSetParser parser = new CharSetParser(new CommonTokenStream(lexer));
        return (CommonTree)parser.parse().getTree();
      }
    }
    
    parse
      :  OSqBr ( normal  -> ^(NORMAL_CHAR_SET normal)
               | negated -> ^(NEGATED_CHAR_SET negated)
               ) 
         CSqBr
      ;
    
    normal
      :  (EscapeSeq | Hyphen | Other) atom* Hyphen?
      ;
    
    negated
      :  Caret normal -> normal
      ;
    
    atom
      :  EscapeSeq
      |  Caret
      |  Other
      |  range
      ;
    
    range
      :  from=Other Hyphen to=Other -> ^(RANGE $from $to)
      ;
    
    OSqBr
          :  '['
      ;
    
    CSqBr
      :  ']'
      ;
    
    EscapeSeq
      :  '\\' .
      ;
    
    Caret
      :  '^'
      ;
    
    Hyphen
      :  '-'
      ;
    
    Other
      :  ~('-' | '\\' | '[' | ']')
      ;
    

    文件:Main.java

    import org.antlr.runtime.*;
    import org.antlr.runtime.tree.*;
    import org.antlr.stringtemplate.*;
    
    public class Main {
      public static void main(String[] args) throws Exception {
        CommonTree tree = RegexParser.ast("((xyz)*[^\\da-f])foo");
        DOTTreeGenerator gen = new DOTTreeGenerator();
        StringTemplate st = gen.toDOT(tree);
        System.out.println(st);
      }
    }
    

    如果你运行主类,你会看到 DOT output对于正则表达式 ((xyz)*[^\\da-f])foo这是以下树:

    enter image description here

    魔法在 Regex.gatom 中的语法我通过调用静态 ast 在重写规则中插入树节点的规则方法来自 CharSetParser类(class):
    CharSet ... -> ^(... {CharSetParser.ast($CharSet.text)} ...)
    

    请注意,在此类重写规则中,不得有分号!所以,这是错误的:{CharSetParser.ast($CharSet.text);} .

    编辑

    以下是为两种语法创建树步行者的方法:

    文件:RegexWalker.g

    tree grammar RegexWalker;
    
    options {
      tokenVocab=Regex;
      ASTLabelType=CommonTree;
    }
    
    walk
      :  ^(REGEX atom+) {System.out.println("REGEX: " + $start.toStringTree());}
      ;
    
    atom
      :  ^(ATOM group quantifier?)
      |  ^(ATOM EscapeSeq quantifier?)
      |  ^(ATOM Other quantifier?)
      |  ^(CHARSET t=. quantifier?) {CharSetWalker.walk($t);}
      ;
    
    group
      :  ^(GROUP atom+)
      ;
    
    quantifier
      :  '+'
      |  '*'
      ;
    

    文件:CharSetWalker.g

    tree grammar CharSetWalker;
    
    options {
      tokenVocab=CharSet;
      ASTLabelType=CommonTree;
    }
    
    @members {
      public static void walk(CommonTree tree) {
        try {
          CommonTreeNodeStream nodes = new CommonTreeNodeStream(tree);
          CharSetWalker walker = new CharSetWalker(nodes);
          walker.walk();
        } catch(Exception e) {
          e.printStackTrace();
        }
      }
    }
    
    walk
      :  ^(NORMAL_CHAR_SET normal)  {System.out.println("NORMAL_CHAR_SET: " + $start.toStringTree());}
      |  ^(NEGATED_CHAR_SET normal) {System.out.println("NEGATED_CHAR_SET: " + $start.toStringTree());}
      ;
    
    normal
      :  (EscapeSeq | Hyphen | Other) atom* Hyphen?
      ;
    
    atom
      :  EscapeSeq
      |  Caret
      |  Other
      |  range
      ;
    
    range
      :  ^(RANGE Other Other)
      ;
    

    主程序

    import org.antlr.runtime.*;
    import org.antlr.runtime.tree.*;
    import org.antlr.stringtemplate.*;
    
    public class Main {
      public static void main(String[] args) throws Exception {
        CommonTree tree = RegexParser.ast("((xyz)*[^\\da-f])foo");
        CommonTreeNodeStream nodes = new CommonTreeNodeStream(tree);
        RegexWalker walker = new RegexWalker(nodes);
        walker.walk();
      }
    }
    

    要运行演示,请执行以下操作:

    java -cp antlr-3.3.jar org.antlr.Tool CharSet.g 
    java -cp antlr-3.3.jar org.antlr.Tool Regex.g
    java -cp antlr-3.3.jar org.antlr.Tool CharSetWalker.g
    java -cp antlr-3.3.jar org.antlr.Tool RegexWalker.g 
    javac -cp antlr-3.3.jar *.java
    java -cp .:antlr-3.3.jar Main
    

    这将打印:

    NEGATED_CHAR_SET: (NEGATED_CHAR_SET \d (RANGE a f))
    REGEX: (REGEX (ATOM (GROUP (ATOM (GROUP (ATOM x) (ATOM y) (ATOM z)) *) (CHARSET (NEGATED_CHAR_SET \d (RANGE a f))))) (ATOM f) (ATOM o) (ATOM o))
    

    关于ANTLR:从不同的语法调用规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6651289/

    相关文章:

    安卓可插入应用程序

    java - 解析器组合器中的递归耗尽堆栈空间

    python - 找出正则表达式的每个部分匹配的内容

    c# - 使用 ANTLR4 解析并返回 double 列表

    antlr - 是否有任何资源为 excel 函数提供 ANTLR 语法?

    html - 如何为 WDI 编写 bison 语法?

    jakarta-ee - 如何向 Java Web 应用程序添加模块化功能

    npm - Webpack/ES6 : how to import stylesheets

    antlr - 如何使用 ANTLR 区分保留字和变量?

    java - 在 Eclipse 中拖放可视化编辑器