antlr3 - 从 ANTLR4 解析器获取 First 和 Follow 元数据

标签 antlr3 antlr4

是否可以使用 ANTLR4 从规则中提取首集和后续集?我在 ANTLR3 中对此进行了一些尝试,但没有找到令人满意的解决方案,但如果有人有这两个版本的信息,我将不胜感激。

我想根据用户的光标位置解析用户输入,然后提供自动完成的可能选项列表。目前,我对部分输入的自动完成标记不感兴趣。我想在解析过程中的某个时刻显示所有可能的后续标记。

例如:

sentence: 
   subjects verb (adverb)? '.' ;

subjects:
   firstSubject (otherSubjects)* ;

firstSubject:
   'The' (adjective)? noun ;

otherSubjects:
   'and the' (adjective)? noun; 

adjective:
   'small' | 'orange' ;

noun: 
   CAT | DOG ;

verb:
   'slept' | 'ate' | 'walked' ;

adverb:
   'quietly' | 'noisily' ;

CAT : 'cat';
DOG : 'dog';

鉴于上面的语法...

如果用户还没有输入任何内容,自动完成列表将是 ['The'](请注意,我必须检索规则句子的第一个而不是后面的,因为基本规则的后面总是结尾)。

如果输入是“The”,自动完成列表将是 ['small', 'orange', 'cat', 'dog']。

如果输入是“The cat slept,自动完成列表将是 ['quietly', 'noisily', '.']。

因此 ANTLR3 提供了一种方法来获取一组执行此操作的方法:

BitSet followSet = state.following[state._fsp];

这很好用。我可以将一些逻辑嵌入到我的解析器中,这样当解析器调用用户所在的规则时,它会检索该规则的后续内容,然后将它们提供给用户。但是,这对于嵌套规则(例如,基本规则,因为跟随集忽略并且子规则跟随,这是应该的)并不适用。

我认为如果用户完成了规则(这可能很难确定)我需要提供第一个集合,以及涵盖所有有效选项的以下集合。我还认为我需要构建我的语法,使两个标记永远不会在规则级别上出现。

我会把上面的“firstSubject”规则分解成一些子规则......

来自

firstSubject:
    'The'(adjective)? CAT | DOG;

firstSubject:
     the (adjective)?  CAT | DOG;
the:
     'the'; 

我还没有找到任何关于从规则中检索第一个集合的信息。

ANTLR4 似乎已经彻底改变了它在生成的解析器级别上的工作方式,所以在这一点上我不确定我是应该继续使用 ANTLR3 还是跳转到 ANTLR4。

如有任何建议,我们将不胜感激。

最佳答案

ANTLRWorks 2 (AW2) 执行类似的操作,我将在此处进行描述。如果您引用 AW2 的源代码,请记住它仅在 LGPL 许可下发布。

  1. 创建一个特殊标记,代表代码完成的兴趣位置。

    • 在某些方面,此 token 的行为类似于 EOF .特别是 ParserATNSimulator 从不使用此 token ;总是在达成决定时或之前做出决定。
    • 在其他方面,这个 token 是非常独特的。特别是,如果 token 位于标识符或关键字处,则将其视为 token 类型是“模糊的”,并允许匹配该语言的任何标识符或关键字。对于 ANTLR 4 语法,如果插入符号位于用户键入的位置 g ,解析器将允许该标记匹配规则名称或关键字 grammar .
  2. 创建一个专门的 ATN 解释器,它可以返回所有可能导致插入符标记的解析树,而无需查看插入符以做出任何决定,也不会限制插入符标记的确切标记类型。

  3. 对于每个可能的解析树,在解析器规则中匹配的任何插入符标记的上下文中评估您的代码完成。

  4. 第 3 步中找到的所有结果的并集是完整的有效代码完成结果集的超集,可以在 IDE 中呈现。

下面介绍AW2对上述步骤的实现。

  1. 在 AW2 中,这是 CaretToken , 它始终具有 token 类型 CARET_TOKEN_TYPE .
  2. 在 AW2 中,此专门操作由 ForestParser<TParser> 表示接口(interface),大部分可重用实现在 AbstractForestParser<TParser> 中并专门用于解析 ANTLR 4 语法以在 GrammarForestParser 中完成代码.
  3. 在 AW2 中,此分析主要由 GrammarCompletionQuery.TaskImpl.runImpl(BaseDocument) 执行.

关于antlr3 - 从 ANTLR4 解析器获取 First 和 Follow 元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19690802/

相关文章:

antlr - 我可以在运行时添加 Antlr token 吗?

tree - ANTLR3 Hetero 节点未创建

antlr4 - 是否可以在不实际匹配 token 的情况下在 ANTLR4 中向前看?

java - 运行 AntLR 4 语法生成的方法

ANTLRv4 : non-greedy rules

java - 为什么 Antlr 默认采用某些替代方案而不是其他方案?

parsing - 树结构 : propagate a subtree to child

error-handling - “no viable alternative”消息如何重定向?

java - 类在类路径中时出现 ClassDefNotFoundError

java - Antlr4 的缩进而不是括号