c++ - x64 CPU 上的原子 16 字节读取

我需要以原子方式读/写 16 个字节。我只使用 cmpxchg16 进行写作，它在所有 x64 处理器上都可用，除了我认为是一个不起眼的 AMD 处理器。

现在的问题是对齐的 16 字节值，仅使用 cmpxchg16 进行修改(它就像一个完整的内存屏障)是否有可能读取一半旧数据和一半新数据的 16 字节位置？

只要我用 SSE 指令读取(所以线程不能在读取中间中断)我认为读取是不可能的(即使在多处理器 numa 系统中)看到不一致的数据。我认为它必须是原子的。

我假设当执行 cmpxchg16 时，它会原子地修改 16 个字节，而不是通过写入两个 8 字节的 block ，其他线程有可能在两者之间进行读取(老实说，我不明白它是怎么做到的)如果它不是原子的就可以工作。)

我说的对吗？如果我错了，有没有办法在不求助于锁定的情况下进行原子 16 字节读取？

注意:有一个couple similar questions here但他们不处理写入仅使用 cmpxchg16 完成的情况，所以我觉得这是一个单独的、未回答的问题。

编辑:实际上我认为我的推理是错误的。 SSE 加载指令可以作为两次 64 位读取执行，并且 cmpxchg16 有可能在两次读取之间由另一个处理器执行。

最佳答案

typedef struct
{
  unsigned __int128 value;
} __attribute__ ((aligned (16))) atomic_uint128;

unsigned __int128
atomic_read_uint128 (atomic_uint128 *src)
{
  unsigned __int128 result;
  asm volatile ("xor %%rax, %%rax;"
                "xor %%rbx, %%rbx;"
                "xor %%rcx, %%rcx;"
                "xor %%rdx, %%rdx;"
                "lock cmpxchg16b %1" : "=A"(result) : "m"(*src) : "rbx", "rcx");
  return result;
}

这应该可以解决问题。 typedef 确保正确对齐。 cmpxchg16b需要数据在 16 字节边界上对齐。

cmpxchg16b 将测试 *src 是否包含零，如果是则写入零 (nop)。在任何一种情况下，正确的值都会在之后出现在 RAX:RDX 中。

上面的代码的计算结果很简单

push   %rbx
xor    %rax,%rax
xor    %rbx,%rbx
xor    %rcx,%rcx
xor    %rdx,%rdx
lock cmpxchg16b (%rdi)
pop    %rbx
retq

关于c++ - x64 CPU 上的原子 16 字节读取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9726566/

c++ - x64 CPU 上的原子 16 字节读取

上一篇：c++ - 如果可能的话静态断言，否则动态断言？

下一篇：c++ - 有没有办法在不按回车键的情况下获取用户输入？