c++ - x64 CPU 上的原子 16 字节读取

标签 c++ c 64-bit sse lock-free

我需要以原子方式读/写 16 个字节。我只使用 cmpxchg16 进行写作,它在所有 x64 处理器上都可用,除了我认为是一个不起眼的 AMD 处理器。

现在的问题是对齐的 16 字节值,仅使用 cmpxchg16 进行修改(它就像一个完整的内存屏障)是否有可能读取一半旧数据和一半新数据的 16 字节位置?

只要我用 SSE 指令读取(所以线程不能在读取中间中断)我认为读取是不可能的(即使在多处理器 numa 系统中)看到不一致的数据。我认为它必须是原子的。

我假设当执行 cmpxchg16 时,它会原子地修改 16 个字节,而不是通过写入两个 8 字节的 block ,其他线程有可能在两者之间进行读取(老实说,我不明白它是怎么做到的)如果它不是原子的就可以工作。)

我说的对吗?如果我错了,有没有办法在不求助于锁定的情况下进行原子 16 字节读取?

注意:有一个couple similar questions here但他们不处理写入仅使用 cmpxchg16 完成的情况,所以我觉得这是一个单独的、未回答的问题。

编辑:实际上我认为我的推理是错误的。 SSE 加载指令可以作为两次 64 位读取执行,并且 cmpxchg16 有可能在两次读取之间由另一个处理器执行。

最佳答案

typedef struct
{
  unsigned __int128 value;
} __attribute__ ((aligned (16))) atomic_uint128;

unsigned __int128
atomic_read_uint128 (atomic_uint128 *src)
{
  unsigned __int128 result;
  asm volatile ("xor %%rax, %%rax;"
                "xor %%rbx, %%rbx;"
                "xor %%rcx, %%rcx;"
                "xor %%rdx, %%rdx;"
                "lock cmpxchg16b %1" : "=A"(result) : "m"(*src) : "rbx", "rcx");
  return result;
}

这应该可以解决问题。 typedef 确保正确对齐。 cmpxchg16b需要数据在 16 字节边界上对齐。

cmpxchg16b 将测试 *src 是否包含零,如果是则写入零 (nop)。在任何一种情况下,正确的值都会在之后出现在 RAX:RDX 中。

上面的代码的计算结果很简单

push   %rbx
xor    %rax,%rax
xor    %rbx,%rbx
xor    %rcx,%rcx
xor    %rdx,%rdx
lock cmpxchg16b (%rdi)
pop    %rbx
retq

关于c++ - x64 CPU 上的原子 16 字节读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9726566/

相关文章:

c++ - 嵌套提升变体类型以增加类型限制?

c++ - 使用vector引发 'std::out_of_range'错误实例后调用终止

康维斯游戏 - 访问越界数据

c - zlib 是否允许从文件中间解压

.net - x64 应用程序可以使用 x86 程序集吗?反之亦然?

c - c结构的64位对齐/填充?

c++ - 哪个 DLL 有 PathCchAppend?

c++ - C++ 中的聚类示例

c - Linux - 如何将代码上传到主板上的专用飞思卡尔芯片 NIC?

linux - 在 x86 上使用 Mono mkbundle 构建无法在 x64 上运行