我正在尝试编写一个 C 解析器,用于我自己的教育。我知道我可以使用像 YACC 这样的工具来简化这个过程,但我想尽可能多地从经验中学习,所以我从头开始。
我的问题是我应该如何处理这样的一行:
doSomethingWith((foo)(bar));
(foo)(bar)
可能是类型转换,如:
typedef int foo;
void doSomethingWith(foo aFoo) { ... }
int main() {
float bar = 23.6;
doSomethingWith((foo)(bar));
return 0;
}
或者,(foo)(bar)
可能是一个函数调用,如:
int foo(int bar) { return bar; }
void doSomethingWith(int anInt) { ... }
int main() {
int bar = 10;
doSomethingWith((foo)(bar));
return 0;
}
在我看来,解析器无法仅通过查看 doSomethingWith((foo)(bar));
行来确定它正在处理这两种情况中的哪一种,这让我很烦,因为我希望能够将解析阶段与您实际确定行 typedef int foo;
意味着 foo
现在是有效类型的“解释”阶段分开。在我想象的场景中,Type a = b + c * d
会解析得很好,即使 Type、a、b、c 和 d 没有在任何地方定义,问题只会在以后出现,当实际尝试“解析”标识符时。
所以,我的问题是:“真正的”C 解析器如何处理这个问题?我所希望的两个阶段之间的分离只是一个天真的愿望,还是我错过了什么?
最佳答案
从历史上看,typedef 是相对较晚才添加到 C 语言中的。在将它们添加到该语言之前,类型名称由关键字组成(int
、char
、double
、struct
等)和标点符号(*
、[]
、()
) ,因此很容易被明确识别。标识符永远不能是类型名称,因此括号中的标识符后跟表达式不能是强制转换表达式。
Typedef 使用户定义的标识符成为类型名称成为可能,这严重扰乱了语法。
看一下 C 标准中 type-specifier 的语法(我将使用 C90 版本,因为它稍微简单一些):
type-specifier:
void
char
short
int
long
float
double
signed
unsigned
struct-or-union-specifier
enum-specifier
typedef-name
除最后一个以外的所有内容都可以轻松识别,因为它们要么是关键字,要么以关键字开头。但是 typedef-name 只是一个标识符。
当 C 编译器处理 typedef
声明时,实际上需要将 typedef 名称作为新关键字引入。这意味着,与具有上下文无关语法的语言不同,需要从符号表到解析器的反馈。
即使这样也有点过于简单化了。仍然可以在内部范围内将 typedef 名称重新定义为另一个 typedef 或其他名称:
{
typedef int foo; /* foo is a typedef name */
{
int foo; /* foo is now an ordinary identifier, an object name */
}
/* And now foo is a typedef name again */
}
因此,如果 typedef 名称在类型名称有效的上下文中使用,那么它实际上是一个用户定义的关键字,但如果它被重新声明,它仍然是一个普通的标识符。
TL;DR:解析 C 很难。
关于c - 通常,C 解析器如何区分类型转换和函数调用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18677379/