我需要以原子方式读/写 16 个字节。我只使用 cmpxchg16 进行写作,它在所有 x64 处理器上都可用,除了我认为是一个不起眼的 AMD 处理器。
现在的问题是对齐的 16 字节值,仅使用 cmpxchg16 进行修改(它就像一个完整的内存屏障)是否有可能读取一半旧数据和一半新数据的 16 字节位置?
只要我用 SSE 指令读取(所以线程不能在读取中间中断)我认为读取是不可能的(即使在多处理器 numa 系统中)看到不一致的数据。我认为它必须是原子的。
我假设当执行 cmpxchg16 时,它会原子地修改 16 个字节,而不是通过写入两个 8 字节的 block ,其他线程有可能在两者之间进行读取(老实说,我不明白它是怎么做到的)如果它不是原子的就可以工作。)
我说的对吗?如果我错了,有没有办法在不求助于锁定的情况下进行原子 16 字节读取?
注意:有一个couple similar questions here但他们不处理写入仅使用 cmpxchg16 完成的情况,所以我觉得这是一个单独的、未回答的问题。
编辑:实际上我认为我的推理是错误的。 SSE 加载指令可以作为两次 64 位读取执行,并且 cmpxchg16 有可能在两次读取之间由另一个处理器执行。
最佳答案
typedef struct
{
unsigned __int128 value;
} __attribute__ ((aligned (16))) atomic_uint128;
unsigned __int128
atomic_read_uint128 (atomic_uint128 *src)
{
unsigned __int128 result;
asm volatile ("xor %%rax, %%rax;"
"xor %%rbx, %%rbx;"
"xor %%rcx, %%rcx;"
"xor %%rdx, %%rdx;"
"lock cmpxchg16b %1" : "=A"(result) : "m"(*src) : "rbx", "rcx");
return result;
}
这应该可以解决问题。 typedef 确保正确对齐。 cmpxchg16b需要数据在 16 字节边界上对齐。
cmpxchg16b 将测试 *src
是否包含零,如果是则写入零 (nop)。在任何一种情况下,正确的值都会在之后出现在 RAX:RDX 中。
上面的代码的计算结果很简单
push %rbx
xor %rax,%rax
xor %rbx,%rbx
xor %rcx,%rcx
xor %rdx,%rdx
lock cmpxchg16b (%rdi)
pop %rbx
retq
关于c++ - x64 CPU 上的原子 16 字节读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9726566/