antlr4 - ANTLR 4.1 变量 ANTLR 4 token 多重性产生错误 : "closure with at least one alternative that can match empty string"

标签 antlr4 abnf

基本上我想做的是在 ANTLR 4.1 中为国际化资源标识符创建语法。到目前为止,我遇到的最困难的时刻是尝试让 ipv6address 的生产规则正常工作。 ipv6address的定义方式在 RFC 3987就是对于该产生式规则,ABNF 格式基本上有 9 种不同的替代方案:

IPv6address    =                            6( h16 ":" ) ls32
              /                       "::" 5( h16 ":" ) ls32
              / [               h16 ] "::" 4( h16 ":" ) ls32
              / [ *1( h16 ":" ) h16 ] "::" 3( h16 ":" ) ls32
              / [ *2( h16 ":" ) h16 ] "::" 2( h16 ":" ) ls32
              / [ *3( h16 ":" ) h16 ] "::"    h16 ":"   ls32
              / [ *4( h16 ":" ) h16 ] "::"              ls32
              / [ *5( h16 ":" ) h16 ] "::"              h16
              / [ *6( h16 ":" ) h16 ] "::" 

这里,ls32和h16都是子规则,定义如下:

ls32           = ( h16 ":" h16 ) / IPv4address

对于 h16 来说:

h16            = 1*4HEXDIG

其中 HEXDIG 是有效十六进制数字的词法分析器规则。我尝试用 ANTLR 语法编写这个 ABNF 语法,如下所示:

grammar IRI;                                    


iri     : scheme ':' ihier_part ('?' iquery)? ('#' ifragment)? ;

ihier_part  : ('//' iauthority ipath_abempty
    | ipath_absolute
    | ipath_rootless)?
    ;

iri_reference   : iri                               
    | irelative_ref                         
    ;

absolute_IRI    : scheme ':' ihier_part ('?' iquery)? ;

irelative_ref   : irelative_part ('?' iquery)? ('#' ifragment)? ;

irelative_part  : ('//' iauthority ipath_abempty
    | ipath_absolute
    | ipath_noscheme)?
    ;

iauthority      : (iuserinfo '@')? ihost (':' port)? ;

iuserinfo       : (iunreserved | pct_encoded | sub_delims | ':')* ;

ihost           : ip_literal
    | ipv4address
    | ireg_name
    ;

ireg_name       : (iunreserved | pct_encoded | sub_delims)* ;

ipath   : (ipath_abempty                        
    | ipath_absolute                        
    | ipath_noscheme                        
    | ipath_rootless)?                      
    ;

ipath_abempty   : ('/' isegment)* ;

ipath_absolute  : '/' (isegment_nz ('/' isegment)*)? ;

ipath_noscheme  : isegment_nz_nc ('/' isegment)* ;

ipath_rootless  : isegment_nz ('/' isegment)* ;


isegment    : (ipchar)* ;

isegment_nz : (ipchar)+ ;

isegment_nz_nc  : (iunreserved | pct_encoded | sub_delims | '@')+ ;     

ipchar      : iunreserved
    | pct_encoded
    | sub_delims
    | ':'
    | '@'
    ;

iquery      : (ipchar | IPRIVATE | '/' | '?')* ;

ifragment   : (ipchar | '/' | '?')* ;

iunreserved : ALPHA
    | DIGIT
    | '-'
    | '.'
    | '_'
    | '~'
    | UCSCHAR
    ;

fragment
UCSCHAR     : '\u00A0'..'\uD7FF'   | '\uF900'..'\uFDCF'   | '\uFDF0'..'\uFFEF'  
    | '\u40000'..'\u4FFFD' | '\u50000'..'\u5FFFD' | '\u60000'..'\u6FFFD'
    | '\u70000'..'\u7FFFD' | '\u80000'..'\u8FFFD' | '\u90000'..'\u9FFFD'    
    | '\uA0000'..'\uAFFFD' | '\uB0000'..'\uBFFFD' | '\uC0000'..'\uCFFFD'
    | '\uD0000'..'\uDFFFD' | '\uE1000'..'\uEFFFD'
    ;

fragment
IPRIVATE    : '\uE000'..'\uF8FF' | '\uF0000'..'\uFFFFD' | '\u100000'..'\u10FFFD' ;

scheme      : ALPHA (ALPHA | DIGIT | '+' | '-' | '.')* ;

port        : (DIGIT)* ;

ip_literal  : '[' (ipv6address | ipvFuture) ']' ;

ipvFuture   : 'v' (HEXDIG)+ '.' (unreserved | sub_delims | ':')+ ;

ipv6address
locals [int i1, i2, i3, i4, i5, i6, i7, i8, i9, i10 = 0;]               
    : ( {$i1<=6}? h16 ':' {$i1++;} )* ls32                  
    | '::' ( {$i2<=5}? h16 ':' {$i2++;} )* ls32
    | (h16)? '::' ( {$i3<=4}? h16 ':' {$i3++;} )* ls32
    | ((h16 ':')? h16)? '::' ( {$i4<=3}? h16 ':'{$i4++;} )* ls32
    | (( {$i5>=0 && $i5<=2}? h16 ':' {$i5++;} )* h16)? '::' ( {$i6<=2}? h16 ':' {$i6++;} )* ls32
    | (( {$i7>=0 && $i7<=3}? h16 ':' {$i7++;} )* h16)? '::' h16 ':' ls32
    | (( {$i8>=0 && $i8<=4}? h16 ':' {$i8++;} )* h16)? '::' ls32
    | (( {$i9>=0 && $i9<=5}? h16 ':' {$i9++;} )* h16)? '::' h16
    | (( {$i10>=0 && $i10<=6}? h16 ':' {$i10++;} )* h16)* '::'
    ;

h16
locals [int i = 1;]
    : ( {$i>=1 && $i<=4}? HEXDIG {$i++;} )* ;       

ls32        : h16 ':' h16 ;

ipv4address : DEC_OCTET '.' DEC_OCTET '.' DEC_OCTET '.' DEC_OCTET ;

DEC_OCTET   : '0'..'9'                      
    | '10'..'99'
    | '100'..'199'
    | '200'..'249'
    | '250'..'255'
    ;

pct_encoded : '%' HEXDIG HEXDIG ;

unreserved  : ALPHA | DIGIT | '-' | '.' | '_' | '~' ;

reserved    : gen_delims
    | sub_delims
    ;

gen_delims  : ':' | '/' | '?' | '#' | '[' | ']' | '@' ;         

sub_delims  : '!' | '$' | '&' | '\'' | '(' | ')' ;              



DIGIT  : [0-9] ;                                
HEXDIG : [0-9A-F] ;
ALPHA  : [a-zA-Z] ;
WS     : [' ' | '\t' | '\r' | '\n']+ -> skip ;

在我的 ANTLR 语法中,我尝试使用语义谓词来指定 ABNF 语法中定义的多重性规则(对于 ipv6address 和 h16)。当我执行 org.antlr.v4.Tool 类时,我得到以下输出:

warning(125): IRI.g4:68:20: implicit definition of token 'IPRIVATE' in parser
warning(125): IRI.g4:78:4: implicit definition of token 'UCSCHAR' in parser
error(153): IRI.g4:100:0: rule 'ipv6address' contains a closure with at least one alternative that can match an empty string
warning(154): IRI.g4:40:0: rule 'ipath' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string

显然,我也想摆脱这些警告,但我需要摆脱指出“ipv6address”包含一个闭包的错误,该闭包至少有一个可以匹配空字符串的替代方案。我在 StackOverflow 上看到过类似的关于多个替代错误的帖子。然而,它们都没有处理可以匹配空字符串的闭包。我也非常确定我必须将 UCSCHAR 中\uFFFF 之前的 Unicode 字符定义为代理对,但我稍后会处理。现在只需要知道如何解决关闭问题。

最佳答案

有很多地方出了问题:


0

280Z28 说的话。


1

'250'..'255' 与字符串 "250" ... "255" 不匹配:您需要匹配原始 ABNF 规范中描述的数字范围:

ABNF

dec-octet      = DIGIT                 ; 0-9
               / %x31-39 DIGIT         ; 10-99
               / "1" 2DIGIT            ; 100-199
               / "2" %x30-34 DIGIT     ; 200-249
               / "25" %x30-35          ; 250-255

ANTLR

dec_octet
 : digit
 | non_zero_digit digit
 | D1 digit digit
 | ...
 ;

2

您有很多相互冲突的词法分析器规则。以这些为例:

HEXDIG : [0-9A-F] ;
ALPHA  : [a-zA-Z] ;

由于 HEXDIG 是在 ALPHA 之前定义的,因此词法分析器在看到 'A' 时始终会创建一个 HEXDIG >,例如。您必须意识到词法分析器不会根据解析器想要接收的内容生成标记。词法分析器将按照自己的方式行事,永远不会为大写字母 A-F 生成 ALPHA


3

fragment 规则只能在其他词法分析器规则(或其他 fragment 规则)内使用。您不能在解析器规则中使用它们。


4

这并不是真正的问题,但谓词使你的语法难以阅读:如果可能的话,尽量减少谓词是我的经验法则。

你的规则:

h16
locals [int i = 1;]
    : ( {$i>=1 && $i<=4}? HEXDIG {$i++;} )* ;

可以写成:

h16
 : HEXDIG HEXDIG HEXDIG HEXDIG
 | HEXDIG HEXDIG HEXDIG
 | HEXDIG HEXDIG
 | HEXDIG
 ;

甚至:

h16
 : HEXDIG (HEXDIG (HEXDIG HEXDIG?)?)?
 ;


大多数问题都很容易解决,但第二个问题比较棘手。您可以(应该?)做的是让词法分析器创建单字符标记,并让解析器将这些单字符标记匹配为一个整体。如何让解析器匹配官方 ABNF 的 dec-octet 产生式的示例:

dec_octet
 : digit                               // 0-9
 | non_zero_digit digit                // 10-99
 | D1 digit digit                      // 100-199
 | D2 (D0 | D1 | D2 | D3 | D4) digit   // 200-249
 | D2 D5 (D0 | D1 | D2 | D3 | D4 | D5) // 250-255
 ;

digit
 : D0
 | non_zero_digit
 ;

non_zero_digit
 : D1 | D2 | D3 | D4 | D5 | D6 | D7 | D8 | D9
 ;

// lexer rules
D0 : '0';
D1 : '1';
D2 : '2';
D3 : '3';
D4 : '4';
D5 : '5';
D6 : '6';
D7 : '7';
D8 : '8';
D9 : '9';

我曾经为 ANTLR 3 编写过一个 IRI 语法。如果你愿意,我可以把它放在 Github 的某个地方。

关于antlr4 - ANTLR 4.1 变量 ANTLR 4 token 多重性产生错误 : "closure with at least one alternative that can match empty string",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21439832/

相关文章:

antlr4 - ANTLR 是否允许在 locals 子句中定义多个变量?

java - 如何强制 ANTLR 解析所有输入的 CharStream

conditional - ANTLR 将 1 对 1 语法规则链接在一起以解决条件

ANTLR4:获取每个规则的开始和结束索引:$stop 行为奇怪

java - Antlr - 输入不匹配错误 - token 无法识别

grammar - 防止 ABNF 中的重复字符

regex - 将 ABNF 规则转换为正则表达式