c - Lex:标识符与整数

我正在尝试创建自己的简单编程语言。为此，我需要在 Lex 中插入一些正则表达式。我使用以下正则表达式来匹配标识符和整数。

[a-zA-Z][a-zA-Z0-9]* /* identifier */ return IDENTIFIER;
("+"|"-")?[0-9]+ /* integer */ return INTEGER;

现在，当我检查例如非法标识符时，例如:

0a = 1;

前导零被识别为整数，后跟被识别为标识符的“a”。相反，我希望这个标记“0a”被识别为非法字符。我如何包含此功能？我需要调整哪些正则表达式？

最佳答案

在 (F)lex 中执行此操作的最简单方法是为错误创建第二个模式:

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]]   {
                           fprintf(stderr,
                                   "Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           return ERROR;
                         }

第三条规则将匹配任何紧随其后的字母的整数，并发出词汇错误信号。 (我假设您已启用 %option yylineno。如果没有，则始终会在第 0 行报告错误。)

另一种方法可能是继续词法扫描。在这种情况下，您可能需要重新扫描有问题的字母字符。在 Flex 中执行此操作的最简单方法是使用它的(特殊的)trailing context运算符/:

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+/[[:alpha:]]   {
                           fprintf(stderr, 
                                   "Warning: Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           return INTEGER;
                         }

现在第三条规则将匹配完全相同的内容，但匹配后它将退回到数字末尾，以便下一个词素将以字母字符开头。

您还可以使用 yyless() 来执行此操作宏:

yyless(n) returns all but the first n characters of the current token back to the input stream…

所以你可以使用:

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]]   {
                           fprintf(stderr, 
                                   "Warning: Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           yyless(yyleng - 1);
                           return INTEGER;
                         }

最后，正如 @CharlieBurns 在评论中指出的那样，您可以让词法分析器向解析器返回两个标记(一个数字和一个标识符)，如果该序列在语言中非法，解析器将识别出语法错误。在许多编程语言中，任何语法程序都不能包含一个整数，后面紧跟一个标识符，中间没有一些标点符号。

但是，在许多其他语言中，这种组合是完全合理的，特别是像 Lua 这样没有明确的语句结束指示符的语言，因此

 b = 3 a = 4

是由两个赋值语句组成的有效程序。另一个例子，在 Awk 中，字符串连接不使用运算符来表示，并且如果需要，数字会自动强制转换为字符串，因此

print 3 a

将打印 "3" 和 a 值的串联。 Lua 在上面的例子中坚持使用空格； awk 没有。

并且，最终，C(++) 将 3a 视为单个标记，即“预处理数字”。如果 token 确实通过了预处理器，则会标记错误，但以下程序没有语法错误:

#define NOTHING(x)
NOTHING(3a)

作为一个可能更有趣的例子:

#define CONCAT2(a,b) a##b
#define CONCAT(a,b) CONCAT2(a,b)
static const int the_answer = CONCAT(0x, 2a);

所以不存在“一个适合所有人的答案”。

关于c - Lex:标识符与整数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19278859/

c - Lex:标识符与整数

上一篇：grails - Grails Controller 可以从基类扩展吗？如何让 grails 不会爆炸？

下一篇：java - 如何在 Android 中偏移 RecyclerView 的第二列？