java - ANTLR 帮助 - 无法解析普通文本,但所有其他更复杂的规则都可以工作

标签 java parsing antlr grammar

我有一个非常简单的语法 - 它解析用户为各种关键字输入的一堆文本,然后对这些关键字进行字符串替换,同时保留所有其他文本“原样”。

基本上,这个语法应该对大部分文本没有任何作用...它应该只是回显该文本...除非它遇到${...} , $video{...} , $image{...}$audio{...}

我的语法现在基本上可以工作,但它无法解析像 hey 这样的普通文本使用 chunk 规则,但由于某种原因,它解析 <p>hey</p>使用 block 规则。为什么?我怎样才能让两者都使用chunk规则?

基本上,我希望 CHUNK 捕获其他规则未捕获的所有其他内容。

我对语法进行了一些重构,以使一切变得更加清晰。似乎 everythingElselabel 混淆了?我不知道,但是hey不起作用:(

grammar Text;

@header {
}

@members {
    int numberOfVideos = 0;
    StringBuilder builder = new StringBuilder();

    public String getResult() {
        return builder.toString();
    }
}

text
    :   expression*
    ;

expression
    :   fillInTheBlank 
        {
            builder.append($fillInTheBlank.value);
        }
    |   image 
        {
            builder.append($image.value);
        }
    |   video
        {
            builder.append($video.value);
        }
    |   audio
        {
            builder.append($audio.value);
        }
    |   anchor
        {
            builder.append($anchor.value);
        }
    |   everythingElse
        {
            builder.append($everythingElse.value);
        }
    ;

fillInTheBlank returns [String value]
    :   '${' LABEL '}' 
        {
            $value = "<input type=\"text\" id=\"" +
                $LABEL.text +
                "\" name=\"" + 
                $LABEL.text +
                "\" class=\"FillInTheBlankAnswer\" />";
        }
    ;

image returns [String value]
    :   '$image{' URL '}'
        {
            $value = "<img src=\"" + $URL.text + "\" />";
        }
    ;

video returns [String value]
    :   '$video{' URL '}'
        {
            numberOfVideos++;

            StringBuilder b = new StringBuilder();
            b.append("<div id=\"video1\">Loading the player ...</div>\r\n");
            b.append("<script type=\"text/javascript\">\r\n");
            b.append("\tjwplayer(\"video" + numberOfVideos + "\").setup({\r\n");
            b.append("\t\tflashplayer: \"/trainingdividend/js/jwplayer/player.swf\", file: \"");
            b.append($URL.text);
            b.append("\"\r\n\t});\r\n");
            b.append("</script>\r\n");

            $value = b.toString();
        }
    ;

audio returns [String value]
    :   '$audio{' URL '}'
        {
            $value = $URL.text;
        }
    ;   

anchor returns [String value]
    :   URL
        {
            $value = "<a href=\"" + $URL.text + "\">" + $URL.text + "</a>";
        }
    ;   

everythingElse returns [String value]
    :   CHUNK
        {
            $value = $CHUNK.text;
        }
    ;

LABEL
    :   ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
    ;
URL
    :   'http://' ('a'..'z'|'A'..'Z'|'0'..'9'|'.'|'/'|'-'|'_'|'%'|'&'|'?')+
    ;
CHUNK
    //: (~('${'|'$video{'|'$image{'|'$audio{'))+
    :   ('a'..'z'|'A'..'Z'|'0'..'9'|'-'|' '|','|'.'|'?'|'\''|':'|'\t'|'\n'|'\r'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&')+
    ;

我是 antlr 新手 - 使用它大约一天了,所以请不要指望我对它了解很多。

最佳答案

由于空间限制和缺乏格式设置的可能性,我选择这种方式进行回复。所以,无论如何:

不。 CHUNK 和 LABEL 是 Lexer (Scanner) 规则,而 fillInTheBlank 是解析器规则。解析器在扫描器之上运行,也就是说,扫描器不知道解析器(规则)。您必须引入词法分析器状态:

首先,您必须引入一个额外的词法分析器成员来保存状态,告诉您是否要读取标签:

@lexer::members {
    private boolean readLabel = false;
}

然后,您必须为“${”和“}”(我称它们为 BEGIN_VAR 和 END_VAR)引入显式标记定义,以修改此状态变量。此外,只有当 readLabel 为 true 时才能创建 END_VAR token :

BEGIN_VAR
    : '${' { readLabel = true; };

END_VAR : { readLabel }?=> '}' { readLabel = false; };

您还必须告诉词法分析器,LABEL 标记也只能在这种状态下生成:

LABEL
    :   { readLabel }?=> ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
    ;

请注意,此定义出现在 CHUNK 之前至关重要。

最后,您必须使用上述标记定义修改 fillInTheBlanks 规则:

fillInTheBlank returns [String value]
    :   BEGIN_VAR LABEL END_VAR 
        { ...

希望这有帮助,似乎对我有用。

关于java - ANTLR 帮助 - 无法解析普通文本,但所有其他更复杂的规则都可以工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8058179/

相关文章:

java - 我如何根据以前使用 java 8 的组合在两个字符之间生成串联​​?

c# - 如何检查字符串是否为正整数?

c# - 为什么 AngleSharp 不为交错文本生成 TextNodes?

antlr - 权威的 ANTLR 引用 - 第一个程序不起作用

Java 二维数组搜索不工作

java - 如何强制jboss从webapp的lib中的jar中加载类

java - 使用 Guava Iterables 时将使用什么 Iterable

java源解析,找到具有完整类型的方法签名

ANTLR4 使用 HIDDEN channel 会导致错误,而使用跳过不会

antlr - 将 ANTLR 语法转换为 Bison/EBNF