c - 为什么这段代码的结果有和没有 "-fsanitize=undefined,address"不同?

标签 c clang

我发现这段代码使用“-fsanitize=undefined,address”和不使用它会产生不同的结果。

int printf(const char *, ...);
union {
  long a;
  short b;
  int c;
} d;
int *e = &d.c;
int f, g;
long *h = &d.a;
int main() {
  for (; f <= 0; f++) {
    *h = g;
    *e = 6;
  }
  printf("%d\n", d.b);
}
命令行是:
$ clang -O0 -fsanitize=undefined,address a.c -o out0
$ clang -O1 -fsanitize=undefined,address a.c -o out1
$ clang -O1 a.c -o out11
$ ./out0
6
$ ./out1
6
$ ./out11
0
Clang 版本是:
$ clang -v
clang version 13.0.0 (/data/src/llvm-dev/llvm-project/clang 3eb2158f4fea90d56aeb200a5ca06f536c1df683)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: /data/bin/llvm-dev/bin
Found candidate GCC installation: /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7
Selected GCC installation: /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7
Candidate multilib: .;@m64
Candidate multilib: 32;@m32
Selected multilib: .;@m64
Found CUDA installation: /usr/local/cuda, version 10.2
操作系统和平台是:
CentOS Linux release 7.8.2003 (Core).0, x86_64 GNU/Linux
我的问题:
  • 我的代码有问题吗?在 C 中获取 union 的多个成员的地址是否无效?
  • 如果我的代码有问题,我如何让 LLVM(或 GCC)警告我?我使用过 -Wall -Wextra 但 LLVM 和 GCC 没有显示任何警告。
  • 最佳答案

    代码有问题吗?
    出于实用目的,是的。
    我认为这是与 Is it undefined behaviour to call a function with pointers to different elements of a union as arguments? 相同的潜在问题
    正如 Eric Postpischil 指出的那样,从字面上看的 C 标准似乎允许您的代码,并要求它打印出 6(假设这与您的实现表示整数类型的方式以及它如何布置 union 的方式一致)。但是,这种字面意思会呈现 strict aliasing rule几乎完全无能为力,所以在我看来这不是标准作者的意图。
    严格别名规则的精神是不能通过指向不同类型的指针访问同一个对象(字符类型等的某些异常(exception)),并且编译器可以基于这种情况永远不会发生的假设进行优化。虽然 d.ad.c严格来说并不是“同一对象”,它们确实具有重叠存储,我认为编译器作者将规则解释为也不允许通过指向不同类型的指针访问重叠对象。在这种解释下,您的代码将具有未定义的行为。
    Defect Report 236委员会考虑了一个类似的例子,并指出它有未定义的行为,因为它使用了"具有不同类型但指定相同存储区域"的指针。然而,澄清这一点的措辞似乎从未出现在该标准的任何后续版本中。
    无论如何,我认为实际的结果是你不能指望你的代码在现代编译器下“正确”工作,这些编译器强制执行对严格别名规则的解释。这是否是一个 clang 错误是一个意见问题,但即使您确实认为它是,那么它是一个他们可能永远不会修复的错误。
    为什么会这样?
    如果您使用 -fno-strict-aliasing标志,然后你回到 6 行为。我的猜测是 sanitizer 碰巧抑制了其中的一些优化,这就是为什么在使用这些选项时您看不到 0 行为的原因。-O1 引擎盖下似乎发生了什么是编译器假定存储到 *h*e不交互(因为它们的类型不同),因此可以自由重新排序。于是吊起*h = g在循环之外,因为毕竟多个存储到同一地址,没有中间负载,是多余的,只需要保留最后一个。正好把它放在循环后面,大概是因为不能证明e不指向 g ,所以 g 的值循环后需要重新加载。所以d.b的最终值源自 *h = g这有效地做 d.a = 0 .
    如何得到警告?
    不幸的是,编译器不擅长在静态或运行时检查是否违反(他们对严格别名规则的解释)。我不知道有什么方法可以收到此类代码的警告。使用 clang,您可以使用 -Weverything启用它支持的每个警告选项(其中许多是无用的或适得其反的),即使如此,它也不会给出有关您的程序的相关警告。

    关于c - 为什么这段代码的结果有和没有 "-fsanitize=undefined,address"不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68963247/

    相关文章:

    Python 和 C/C++ 多线程 : run several threads executing python in the background of C

    c++ - TreeView_SetExtendedStyle 不应用某些样式,我做错了什么?

    c++ - 为什么 clang/llvm 不对此进行优化?

    xcode - 如何在没有 xcode 的情况下生成 dSYM 文件?

    linux - 在 Debian 上链接依赖于位置的程序集

    存在段错误的 C 程序

    CRC ECMA-182 引用

    c++ - 有人可以推荐一本关于可移植 C/C++ 代码开发的书吗?

    c++ - Clang 中 -g 和 -gfull 的区别

    c++ - 是否允许编译器优化堆内存分配?