c - C 是否与 C++ 中的 std::less 等效?

标签 c pointers undefined-behavior memory-model memory-segmentation

我最近在回答一个关于做 p < q 的未定义行为的问题。在 C 时 pq是指向不同对象/数组的指针。这让我想到:C++ 具有与 < 相同的(未定义的)行为在这种情况下,还提供了标准库模板std::less保证返回与 < 相同的内容当可以比较指针时,并在不能比较时返回一些一致的顺序。

C 是否提供了一些具有类似功能的东西,可以安全地比较任意指针(指向同一类型)?我尝试查看 C11 标准并没有找到任何东西,但我在 C 方面的经验比在 C++ 中小几个数量级,所以我很容易错过一些东西。

最佳答案

在具有平面内存模型(基本上所有)的实现上,转换为 uintptr_t将只是工作。

(但请参阅 Should pointer comparisons be signed or unsigned in 64-bit x86? 以讨论是否应该将指针视为有符号指针,包括在 C 中的 UB 对象之外形成指针的问题。)

但是具有非平面内存模型的系统确实存在,考虑它们可以帮助解释当前的情况,例如 C++ 对 < 的规范不同。对比 std::less .

部分观点<指向在 C 中作为 UB 的单独对象的指针(或至少在某些 C++ 修订版中未指定)是为了允许奇怪的机器,包括非平面内存模型。

一个众所周知的例子是 x86-16 实模式,其中指针是段:偏移量,通过 (segment << 4) + offset 形成一个 20 位的线性地址。 .同一个线性地址可以用多个不同的 seg:off 组合来表示。

C++ std::less在奇怪的 ISA 上的指针可能需要很昂贵 ,例如在 x86-16 上“规范化”一个 segment:offset 以使其偏移 <= 15。但是,没有可移植的方法来实现这一点。 规范化 uintptr_t 所需的操作(或指针对象的对象表示)是特定于实现的。

但即使在 C++ std::less 的系统上一定很贵,<不一定是。例如,假设一个“大”内存模型,其中一个对象适合一个段,<可以只比较偏移部分,甚至不用管段部分。 (同一对象内的指针将具有相同的段,否则它是 C 中的 UB。C++17 更改为仅“未指定”,这可能仍然允许跳过规范化并仅比较偏移量。)这是假设所有指针指向任何部分对象总是使用相同的 seg值,从不规范化。这是您期望 ABI 需要的“大”内存模型而不是“巨大”内存模型。 (见 discussion in comments)。

(例如,这种内存模型的最大对象大小可能为 64kiB,但最大总地址空间要大得多,可以容纳许多此类最大大小的对象。ISO C 允许实现对对象大小的限制低于最大值(无符号) size_t 可以表示, SIZE_MAX 。例如,即使在平面内存模型系统上,GNU C 也将最大对象大小限制为 PTRDIFF_MAX,因此大小计算可以忽略有符号溢出。)参见 this answer并在评论中讨论。

如果你想允许大于一个段的对象,你需要一个“巨大的”内存模型,它必须担心在做 p++ 时指针的偏移部分溢出。循环遍历数组,或在进行索引/指针运算时。这会导致所有地方的代码变慢,但可能意味着 p < q碰巧适用于指向不同对象的指针,因为针对“巨大”内存模型的实现通常会选择始终保持所有指针标准化。见 What are near, far and huge pointers? - 一些用于 x86 实模式的真正 C 编译器确实可以选择为“巨大”模型进行编译,其中所有指针默认为“巨大”,除非另有声明。

x86 实模式分段不是唯一可能的非平面内存模型 ,它只是一个有用的具体示例,用于说明 C/C++ 实现如何处理它。在现实生活中,实现使用 far 的概念扩展了 ISO C。对比 near指针,允许程序员选择何时可以只存储/传递相对于某些常见数据段的 16 位偏移部分。

但是,纯 ISO C 实现必须在小内存模型(除了具有 16 位指针的相同 64kiB 中的代码之外的所有内容)或所有指针均为 32 位指针的大或大内存模型之间做出选择。一些循环可以通过只增加偏移部分来优化,但指针对象不能被优化为更小。

如果你知道任何给定实现的魔法操作是什么,你可以用纯 C 实现它。 .问题是不同的系统使用不同的寻址,并且细节没有被任何可移植宏参数化。

或者可能不是:它可能涉及从特殊段表或其他内容中查找某些内容,例如像 x86 保护模式而不是实模式,其中地址的段部分是索引,而不是要左移的值。您可以在保护模式下设置部分重叠的段,并且地址的段选择器部分甚至不一定按照与相应段基地址相同的顺序进行排序。如果 GDT 和/或 LDT 未映射到进程中的可读页面,则在 x86 保护模式下从 seg:off 指针获取线性地址可能涉及系统调用。

(当然,x86 的主流操作系统使用平面内存模型,因此段基数始终为 0(使用 fsgs 段的线程本地存储除外),并且只有 32 位或 64 位“偏移量”部分用作指针。)

您可以为各种特定平台手动添加代码,例如默认情况下假设平坦,或 #ifdef检测 x86 实模式和拆分的东西 uintptr_tseg -= off>>4; off &= 0xf; 分成 16 位一半然后将这些部分组合回一个 32 位数字。

关于c - C 是否与 C++ 中的 std::less 等效?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58322107/

相关文章:

c - 初始化一个结构体

function - 如何实现功能?

c++ - 这是未定义的行为吗?

我可以将多个有序语句放入一个有序 for 循环 (OpenMP) 中吗?

C++在特定接口(interface)上接收多播

c - 从 malloc 传递双指针获取段错误。对语法感到困惑

c - pthread 和一些原始线程池的奇怪行为

c - 对数组使用 calloc 的正确方法是什么?

jquery - 有没有办法让页面中所有的onclick事件都成为光标指针?

c++ - 放置-新地址对齐