我有一个相对复杂的词法分析器问题。给定以下输入:
-argument -argument#with hashed data# #plainhashedData#
我需要这些 token :
ARGUMENT (Text = "argument")
ARGUMENT (Text = "argument")
EXTRADATA (Text = "with hashed data")
OTHER (Text = "#plainhasheddata#")
我已经能够解决文本操作问题,但我需要一些方法来指定仅当先前匹配的规则是 ARGUMENT 时才能匹配 EXTRADATA 规则。 ANTLR 支持句法谓词(即使在词法分析器中),所以这应该不难实现——但在我能够编写这样的谓词之前,我需要能够获得先前匹配的标记是什么。
这可能使用 ANTLR C 代码生成目标吗?
比利3
编辑:当前的词法分析器规则类似于:
ARGUMENT : '-'+ (~('-'|'#'|' '))+
;
EXTRADATA : '#' (~'#')* '#'
;
OTHER : ~'-' (~' ')*
;
最佳答案
请注意,我对 C 知之甚少,也没有使用 ANTLR 的 C 运行时的经验,但是我示例中的 Java 代码重写成 C 应该不会太难。
您可以通过重写 Lexer
基类的 emit(Token)
方法并跟踪您的词法分析器的最后一个 Token
来做到这一点过程:
private Token last;
@Override
public void emit(Token token) {
last = token;
super.emit(token);
}
要将其包含在您的词法分析器中,请将其添加到您的语法中:
@lexer::members {
// your code here
}
现在您必须将Other
规则放在 您的ExtraData
规则之前并放置一个gated semantic predicate。在检查 last
标记是否为 ExtraData
标记的 Other
规则之前:
Other
: {behind(ExtraData)}?=> ~'-' (~' ')*
;
behind(int)
方法是您的 @lexer::members { ... }
部分中的自定义方法:
protected boolean behind(int tokenType) {
return last != null && last.getType() == tokenType;
}
如果最后一个标记是 ExtraData
,这将导致 Other
标记匹配。
这一切的一点演示语法:
grammar LookBehind;
@lexer::members {
private Token last;
@Override
public void emit(Token token) {
last = token;
super.emit(token);
}
protected boolean behind(int tokenType) {
return last != null && last.getType() == tokenType;
}
}
parse
: token+ EOF
;
token
: Argument {System.out.println("Argument :: "+$Argument.text);}
| Other {System.out.println("Other :: "+$Other.text);}
| ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
;
Argument
: '-'+ (~('-' | '#' | ' '))+
;
Other
: {behind(ExtraData)}?=> ~('-' | ' ') (~' ')*
;
ExtraData
: '#' (~'#')* '#'
;
Space
: (' ' | '\t' | '\r' | '\n') {skip();}
;
和一个测试它的主类:
import org.antlr.runtime.*;
public class Main {
public static void main(String[] args) throws Exception {
String source = "-argument -argument#with hashed data# #plainhashedData#";
ANTLRStringStream in = new ANTLRStringStream(source);
LookBehindLexer lexer = new LookBehindLexer(in);
CommonTokenStream tokens = new CommonTokenStream(lexer);
LookBehindParser parser = new LookBehindParser(tokens);
parser.parse();
}
}
首先从语法生成解析器和词法分析器:
java -cp antlr-3.2.jar org.antlr.Tool LookBehind.g
then compile all .java
files:
javac -cp antlr-3.2.jar *.java
and finally run the main class:
java -cp .:antlr-3.2.jar Main
(on Windows do: java -cp .;antlr-3.2.jar Main
)
which then will produce the following output:
Argument :: -argument Argument :: -argument ExtraData :: #with hashed data# Other :: #plainhashedData#
EDIT
As you (Billy) mentioned in your comment, in C you can't override methods. You could also set a boolean flag in the @after{ ... }
clause of each lexer rule to keep track of when the last token is a ExtraData
and use that flag in your predicate:
grammar LookBehind;
@lexer::members {
private boolean lastExtraData = false;
}
parse
: token+ EOF
;
token
: Argument {System.out.println("Argument :: "+$Argument.text);}
| Other {System.out.println("Other :: "+$Other.text);}
| ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
;
Argument
@after{lastExtraData = false;}
: '-'+ (~('-' | '#' | ' '))+
;
Other
@after{lastExtraData = false;}
: {lastExtraData}?=> ~('-' | ' ') (~' ')*
;
ExtraData
@after{lastExtraData = true;}
: '#' (~'#')* '#'
;
Space
: (' ' | '\t' | '\r' | '\n') {skip();}
;
尽管这有点 hack:在每个词法分析器规则中,您都必须设置标志。
您也可以将问题发布到 ANTLR mailing-list : 除了很多 ANTLR 专家,维护 ANTLR 的 C-runtime 的人也常去那里。
祝你好运!
关于c - 使用 ANTLR C 目标,如何在 Lexer 中获取先前匹配的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3278338/