c - 为什么减去字符实现的行为是特定的?

标签 c character-encoding

这个声明:

if('z' - 'a' == 25)

不保证以相同的方式进行评估。它依赖于编译器。此外,不能保证以与此相同的方式对其进行评估:

#if 'z' - 'a' == 25

即使预处理器和编译器都在同一台机器上运行。这是为什么?

最佳答案

OP 询问标准的直接引用 — N1570 §6.10.1p3,4 + footnote 168 :

... the controlling constant expression is evaluated according to the rules of 6.6. ... This includes interpreting character constants, which may involve converting escape sequences into execution character set members. Whether the numeric value for these character constants matches the value obtained when an identical character constant occurs in an expression (other than within a #if or #elif directive) is implementation-defined.168

[footnote 168] Thus, the constant expression in the following #if directive and if statement is not guaranteed to evaluate to the same value in these two contexts.

#if 'z' - 'a' == 25
if ('z' - 'a' == 25)

所以,是的,确实不能保证。

要理解为什么不能保证,首先您需要知道 C 标准不需要字符常量 'a'' z' 通过 ASCII 将数值分配给这些字符。 大多数 现在的 C 实现使用 ASCII 或超集,但还有另一种编码称为 EBCDIC仍然被广泛使用(仅在 IBM 大型机上,但仍然有很多)。在 EBCDIC 中,不仅 'a''z' 具有与 ASCII 不同的值,字母表也不是连续的序列!这就是为什么表达式 'z' - 'a' == 25 一开始可能不会计算为真。

您还需要知道 C 标准试图区分用于源代码的文本编码(“源字符集”)和程序将在运行时使用的文本编码(“执行字符集” ”)。这样一来,至少在原则上,您可以获取源代码以 ASCII 文本编码的程序,并在使用 EBCDIC 的计算机上不加修改地运行它,只需通过适当的交叉编译即可;您不必先将源文本转换为 EBCDIC。

现在,编译器必须理解这两个不同的字符集,但从历史上看,C 预处理器(translation phases 1 到 4)和“编译器本身”(第 5 到 7 阶段)是两个独立的程序,和 #if 表达式是预处理器必须知道执行字符集的唯一地方。因此,通过实现定义预处理器使用的“执行字符集”是否与编译器本身使用的相匹配,标准许可预处理器在字符集中完成其所有工作,让生活在 1989 年变得更轻松一些。

说了这么多,我会很惊讶地发现一个现代编译器没有让两个表达式计算出相同的值,即使在执行和源字符集严重不兼容的情况下也是如此。现代编译器往往集成预处理器——阶段 1 到 7 都由同一个程序执行——即使没有,专门化预处理器以匹配其执行特性的工程负担现在设置为编译器本身是微不足道的。

关于c - 为什么减去字符实现的行为是特定的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46890093/

相关文章:

c - 重叠指针、类型的限制限定符的粒度

c - 如何从文本输入文件中读取 0 和 1 并执行位操作(移位)

c - PEM_read_RSAPrivateKey 在 C 中使用 OpenSSL 库解密时返回 "Illegal Seek"

c - GMP 库中的矩阵(C 语言)

java - Spring MVC 和 UTF-8 : How to work with Swedish special characters?

character-encoding - 为什么 JDK8 的 Base64 使用 ISO-8859-1?

c - Arduino 不等待每个模式(模式)结束我怎样才能重新启动循环?

MYSQL 区分大小写搜索 utf8_bin 字段

没有 libiconv 的 C 字符串编码 UTF8

character-encoding - 在 neovim 缓冲区中打印随机字符