java - 如何使用 antlr 在两个终端规则中以不同方式解析特殊字符?

标签 java parsing antlr grammar

我有一个语法,它在许多终端规则的开头使用 $ 字符,例如 $video{$audio{$image{$link{ 和其他类似的内容。

但是,我也想匹配所有不符合这些规则的 ${} 字符。例如,我的语法没有正确匹配 CHUNK 规则中的 $100,而是将 $ 添加到 中的可接受字符的长列表中>CHUNK 导致其他产生式规则被破坏。

我怎样才能改变我的语法,使其足够聪明,能够将普通的 $、{ 和 } 字符与我的特殊生产规则区分开来?

基本上我能做的是说,“如果 $ 字符后面没有 {、video、image、audio、link 等,那么它应该转到 CHUNK”。

grammar Text;

@header {
}

@lexer::members {
    private boolean readLabel = false;
    private boolean readUrl = false;
}

@members {
    private int numberOfVideos = 0;
    private int numberOfAudios = 0;
    private StringBuilder builder = new StringBuilder();

    public String getResult() {
        return builder.toString();
    }
}

text
    :   expression*
    ;

expression
    :   fillInTheBlank 
        {
            builder.append($fillInTheBlank.value);
        }
    |   image 
        {
            builder.append($image.value);
        }
    |   video
        {
            builder.append($video.value);
        }
    |   audio
        {
            builder.append($audio.value);
        }
    |   link
        {
            builder.append($link.value);
        }
    |   everythingElse
        {
            builder.append($everythingElse.value);
        }
    ;

fillInTheBlank returns [String value]
    :   BEGIN_INPUT LABEL END_COMMAND
        {
            $value = "<input type=\"text\" id=\"" +
                $LABEL.text +
                "\" name=\"" + 
                $LABEL.text +
                "\" class=\"FillInTheBlankAnswer\" />";
        }
    ;

image returns [String value]
    :   BEGIN_IMAGE URL END_COMMAND
        {
            $value = "<img src=\"" + $URL.text + "\" />";
        }
    ;

video returns [String value]
    :   BEGIN_VIDEO URL END_COMMAND
        {
            numberOfVideos++;

            StringBuilder b = new StringBuilder();
            b.append("<div id=\"video1\">Loading the player ...</div>\r\n");
            b.append("<script type=\"text/javascript\">\r\n");
            b.append("\tjwplayer(\"video" + numberOfVideos + "\").setup({\r\n");
            b.append("\t\tflashplayer: \"/trainingdividend/js/jwplayer/player.swf\", file: \"");
            b.append($URL.text);
            b.append("\"\r\n\t});\r\n");
            b.append("</script>\r\n");

            $value = b.toString();
        }
    ;

audio returns [String value]
    :   BEGIN_AUDIO URL END_COMMAND
        {
            numberOfAudios++;

            StringBuilder b = new StringBuilder();
            b.append("<p id=\"audioplayer_");
            b.append(numberOfAudios);
            b.append("\">Alternative content</p>\r\n");
            b.append("<script type=\"text/javascript\">\r\n");
            b.append("\tAudioPlayer.embed(\"audioplayer_");
            b.append(numberOfAudios);
            b.append("\", {soundFile: \"");
            b.append($URL.text);
            b.append("\"});\r\n");
            b.append("</script>\r\n");

            $value = b.toString();
        }
    ;   

link returns [String value]
    :   BEGIN_LINK URL END_COMMAND
        {
            $value = "<a href=\"" + $URL.text + "\">" + $URL.text + "</a>";
        }
    ;   

everythingElse returns [String value]
    :   CHUNK
        {
            $value = $CHUNK.text;
        }
    ;

BEGIN_INPUT
    :   '${' 
        { 
            readLabel = true; 
        }
    ;

BEGIN_IMAGE
    :   '$image{' 
        { 
            readUrl = true; 
        }
    ;

BEGIN_VIDEO
    :   '$video{' 
        { 
            readUrl = true; 
        }
    ;

BEGIN_AUDIO
    :   '$audio{' 
        { 
            readUrl = true; 
        }
    ;

BEGIN_LINK
    :   '$link{' 
        { 
            readUrl = true; 
        }
    ;

END_COMMAND
    :   { readLabel || readUrl }?=> '}' 
        { 
            readLabel = false; 
            readUrl = false;
        }
    ;

URL
    :   { readUrl }?=> 'http://' ('a'..'z'|'A'..'Z'|'0'..'9'|'.'|'/'|'-'|'_'|'%'|'&'|'?'|':')+
    ;

LABEL
    :   { readLabel }?=> ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
    ;

CHUNK
    //: (~('${'|'$video{'|'$image{'|'$audio{'))+
    :   ('a'..'z'|'A'..'Z'|'0'..'9'|' '|'\t'|'\n'|'\r'|'-'|','|'.'|'?'|'\''|':'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&'|'!'|'#'|'%'|'*')+
    ;

最佳答案

你不能否定超过一个字符。因此,以下内容无效:

~('${')

但为什么不简单地将 '$''{''}' 添加到您的 CHUNK规则 删除 CHUNK 规则末尾的 +(否则它会吞噬很多,可能是 '$video{ ' 在源代码中更进一步,正如您自己已经注意到的那样)?。

现在 CHUNK token 将始终由单个字符组成,但您可以创建一个生产规则来解决此问题:

chunk
  :  CHUNK+
  ;

并在您的生产规则中使用 chunk 而不是 CHUNK(当然也可以使用 CHUNK+)。

"{ } $foo $video{" 这样的输入将被标记如下:

CHUNK                {
CHUNK
CHUNK                }
CHUNK
CHUNK                $
CHUNK                f
CHUNK                o
CHUNK                o
CHUNK
BEGIN_VIDEO          $video{

EDIT

And if you let your parser output an AST, you can easily merge all the text that one or more CHUNK's match into a single AST, whose inner token is of type CHUNK, like this:

grammar Text;

options {
  output=AST;
}

...

chunk
  :  CHUNK+ -> {new CommonTree(new CommonToken(CHUNK, $text))}
  ;

...

关于java - 如何使用 antlr 在两个终端规则中以不同方式解析特殊字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8059922/

相关文章:

java - 使用 SMTP 和 Apache Camel 向自己发送电子邮件

java - 有FileDataModel的替代方法吗?

java - Java/Groovy 中的电子表格解析器

java - 是否可以将ANTLR3语法转换为正则表达式?

java - 对于不扩展 Enum 的泛型,Enum.valueOf 的替代品?

java - 如何使用 replace(char, char) 将字符 b 的所有实例替换为空

JavaCPP 在函数消歧方面失败

javascript - 如何将JSON数据放入变量、解析、输出为HTML

c# - 使用 ANTLR 将 vbscript 翻译成 C#

java - ANTLR 4 $channel = HIDDEN 和选项