c - 使用 ANTLR C 目标,如何在 Lexer 中获取先前匹配的标记?

标签 c antlr

我有一个相对复杂的词法分析器问题。给定以下输入:

-argument -argument#with hashed data# #plainhashedData#

我需要这些 token :

ARGUMENT (Text = "argument")
ARGUMENT (Text = "argument")
EXTRADATA (Text = "with hashed data")
OTHER (Text = "#plainhasheddata#")

我已经能够解决文本操作问题,但我需要一些方法来指定仅当先前匹配的规则是 ARGUMENT 时才能匹配 EXTRADATA 规则。 ANTLR 支持句法谓词(即使在词法分析器中),所以这应该不难实现——但在我能够编写这样的谓词之前,我需要能够获得先前匹配的标记是什么。

这可能使用 ANTLR C 代码生成目标吗?

比利3

编辑:当前的词法分析器规则类似于:

ARGUMENT : '-'+ (~('-'|'#'|' '))+
         ;
EXTRADATA : '#' (~'#')* '#'
          ;
OTHER : ~'-' (~' ')*
      ;

最佳答案

请注意,我对 C 知之甚少,也没有使用 ANTLR 的 C 运行时的经验,但是我示例中的 Java 代码重写成 C 应该不会太难。


您可以通过重写 Lexer 基类的 emit(Token) 方法并跟踪您的词法分析器的最后一个 Token 来做到这一点过程:

private Token last;

@Override
public void emit(Token token) {
  last = token;
  super.emit(token);
}

要将其包含在您的词法分析器中,请将其添加到您的语法中:

@lexer::members {

  // your code here

}

现在您必须将Other 规则放在 您的ExtraData 规则之前并放置一个gated semantic predicate。在检查 last 标记是否为 ExtraData 标记的 Other 规则之前:

Other
  :  {behind(ExtraData)}?=> ~'-' (~' ')*
  ;

behind(int) 方法是您的 @lexer::members { ... } 部分中的自定义方法:

protected boolean behind(int tokenType) {
  return last != null && last.getType() == tokenType;
}

如果最后一个标记是 ExtraData,这将导致 Other 标记匹配

这一切的一点演示语法:

grammar LookBehind;

@lexer::members {

  private Token last;

  @Override
  public void emit(Token token) {
    last = token;
    super.emit(token);
  }

  protected boolean behind(int tokenType) {
    return last != null && last.getType() == tokenType;
  }
}

parse
  :  token+ EOF
  ;

token
  :  Argument  {System.out.println("Argument  :: "+$Argument.text);}
  |  Other     {System.out.println("Other     :: "+$Other.text);}
  |  ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
  ;

Argument
  :  '-'+ (~('-' | '#' | ' '))+
  ;

Other
  :  {behind(ExtraData)}?=> ~('-' | ' ') (~' ')*
  ;

ExtraData 
  : '#' (~'#')* '#'
  ;

Space
  :  (' ' | '\t' | '\r' | '\n') {skip();}
  ;

和一个测试它的主类:

import org.antlr.runtime.*;

public class Main {
    public static void main(String[] args) throws Exception {
        String source = "-argument -argument#with hashed data# #plainhashedData#";
        ANTLRStringStream in = new ANTLRStringStream(source);
        LookBehindLexer lexer = new LookBehindLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        LookBehindParser parser = new LookBehindParser(tokens);
        parser.parse();
    }
}

首先从语法生成解析器和词法分析器:

java -cp antlr-3.2.jar org.antlr.Tool LookBehind.g 

then compile all .java files:

javac -cp antlr-3.2.jar *.java

and finally run the main class:

java -cp .:antlr-3.2.jar Main

(on Windows do: java -cp .;antlr-3.2.jar Main)

which then will produce the following output:

Argument  :: -argument
Argument  :: -argument
ExtraData :: #with hashed data#
Other     :: #plainhashedData#

EDIT

As you (Billy) mentioned in your comment, in C you can't override methods. You could also set a boolean flag in the @after{ ... } clause of each lexer rule to keep track of when the last token is a ExtraData and use that flag in your predicate:

grammar LookBehind;

@lexer::members {
  private boolean lastExtraData = false;
}

parse
  :  token+ EOF
  ;

token
  :  Argument  {System.out.println("Argument  :: "+$Argument.text);}
  |  Other     {System.out.println("Other     :: "+$Other.text);}
  |  ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
  ;

Argument
@after{lastExtraData = false;}
  :  '-'+ (~('-' | '#' | ' '))+
  ;

Other
@after{lastExtraData = false;}
  :  {lastExtraData}?=> ~('-' | ' ') (~' ')*
  ;

ExtraData
@after{lastExtraData = true;}
  : '#' (~'#')* '#'
  ;

Space
  :  (' ' | '\t' | '\r' | '\n') {skip();}
  ;

尽管这有点 hack:在每个词法分析器规则中,您都必须设置标志。

您也可以将问题发布到 ANTLR mailing-list : 除了很多 ANTLR 专家,维护 ANTLR 的 C-runtime 的人也常去那里。

祝你好运!

关于c - 使用 ANTLR C 目标,如何在 Lexer 中获取先前匹配的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3278338/

相关文章:

java - JNI 报告 Android 中 GetByteArrayElements 的间接引用无效

c - 查找上次释放内存的位置?

ANTLR:源语言到目标语言的转换

antlr - 在 ANTLR 中跳过部分输入文件

ANTLR 解析语法 -> 树语法

ios - 将中间带有空终止字符的 C unsigned char 数组转换为 Objective-C NSString

c - 使用分而治之的矩阵乘法

parsing - 分析没有固定/静态语义的树?

ios - 将 C 结构数组存储到核心数据或磁盘上?

java - 如何简化 token 预测 DFA?