java - JFlex 限制单行注释正则表达式

标签 java regex comments jflex

我正在为一种虚构语言构建一个词法分析器,并且在定义单行注释正则表达式时遇到问题。

问题是评论允许的字符受到限制。仅允许使用某些字符,其中包括:空格、数字、字母和一些符号(例如 */+- )。单行注释以 // 开头(如在 C 和 Java 中) ,其定义(限制字符除外)与 C 和 Java 中的相同。

首先我尝试了以下正则表达式:

"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* (\r|\n|\r\n)

这有望捕获单行注释,但不幸的是,这并没有捕获文件末尾的单行注释,因为它末尾没有行终止符。

我尝试将其更改为:

"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* ((\r|\n|\r\n) | [^.])

希望 [^.]会发现注释后不允许有任何字符(以某种方式模拟 EOF ?),但这不起作用,正则表达式会捕获所有内容,直到出现禁止的字符,例如: // comment = 1翻译为single line comment , = , 1

我无法使用 JFlex 的 <<EOF>>因为它不能是正则表达式的一部分。

是否有一个好的正则表达式解决这个问题? (假设我无法修改输入)。

谢谢!

最佳答案

来自 jflex 手册:
http://jflex.de/manual.html#Example

TraditionalComment   = "/*" [^*] ~"*/" | "/*" "*"+ "/"
// Comment can be the last line of the file, without line terminator.
EndOfLineComment     = "//" {InputCharacter}* {LineTerminator}?
DocumentationComment = "/**" {CommentContent} "*"+ "/"
CommentContent       = ( [^*] | \*+ [^/*] )*

另请注意,您可以使用 %eofval 来使用特定的 eof 值,这也在我上面发布的手册中进行了讨论。

我意识到您特别要求正则表达式解决方案,但也可能有更好的方法通过使用词法状态来简化此问题 - 您可以使用符号“//”指示注释状态的入口;一旦处于该状态,您可以抓取所有字母数字字符,直到您点击单行的行结束符,返回 tag.comment 标记,然后转换回 yyinitial 状态并继续进行词法分析。

例如,包括我上面讨论的所有内容:

%%
%state COMMENT
%%
%eofval{
    return getToken(tag.EOF, null);
%eofval}


comment = "//"
eol = "\r\n\"
characters = [a-zA-Z0-9] | [*] | [/] | [+] | [-]
%%
<YYINITIAL> {comment}{
    yybegin(COMMENT);
    return getToken(tag.Comment, yytext());
}

<COMMENT> {characters}{eol}{
    yybegin(YYINITIAL);
}

**免责声明,这作为词法分析器是不完整的,并且是我凭空想象出来的。这更多的是为了演示我上面讨论的示例

关于java - JFlex 限制单行注释正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53033439/

相关文章:

RegEx 获取没有值的 HTML 属性

comments - Elixir 中的多行注释

python - 使用 Python 发表评论

javascript - html的多个内联注释

java - 扩展类(其父类扩展了 JFrame)后出现 StackOverflowError

java - Netty 中的两种方式的 SSL 身份验证

java - 无法从 java 项目导入 .class 文件

java - Math.sqrt 函数

c# - 如何编写这个正则表达式?

ruby 正则表达式 : ^ matches start of line even without m modifier?