我有点困惑: 在生产中,我们有两个进程通过共享内存进行通信,数据交换的一部分是一个 long 和一个 bool。对该数据的访问是不同步的。很长一段时间以来它一直运行良好,现在仍然如此。我知道修改一个值不是原子的,但考虑到这些值被修改/访问了数百万次,这一定会失败吗?
这是一段示例代码,它在两个线程之间交换一个数字:
#include <pthread.h>
#include <xmmintrin.h>
typedef unsigned long long uint64;
const uint64 ITERATIONS = 500LL * 1000LL * 1000LL;
//volatile uint64 s1 = 0;
//volatile uint64 s2 = 0;
uint64 s1 = 0;
uint64 s2 = 0;
void* run(void*)
{
register uint64 value = s2;
while (true)
{
while (value == s1)
{
_mm_pause();// busy spin
}
//value = __sync_add_and_fetch(&s2, 1);
value = ++s2;
}
}
int main (int argc, char *argv[])
{
pthread_t threads[1];
pthread_create(&threads[0], NULL, run, NULL);
register uint64 value = s1;
while (s1 < ITERATIONS)
{
while (s2 != value)
{
_mm_pause();// busy spin
}
//value = __sync_add_and_fetch(&s1, 1);
value = ++s1;
}
}
如你所见,我已经注释掉了几件事:
// volatile uint64 s1 = 0;
和
//value = __sync_add_and_fetch(&s1, 1);
__sync_add_and_fetch 自动递增一个变量。
我知道这不是很科学,但是在没有同步功能的情况下运行几次它完全可以正常工作。此外,如果我测量同步和不同步的两个版本,它们以相同的速度运行,为什么 __sync_add_and_fetch 没有增加任何开销?
我的猜测是编译器保证了这些操作的原子性,因此我在生产中看不到问题。但仍然无法解释为什么 __sync_add_and_fetch 没有增加任何开销(即使在调试中运行)。
关于矿场环境的更多细节: Ubuntu 10.04, gcc4.4.3 英特尔 i5 多核处理器。
生产环境类似,只是在更强大的 CPU 和 Centos OS 上运行。
谢谢你的帮助
最佳答案
基本上你是在问“为什么我看不出两者之间的行为/性能有什么不同
s2++;
和
__sync_add_and_fetch(&s2, 1);
好吧,如果你去看看编译器在这两种情况下生成的实际代码,你会发现这是有区别的——s2++
版本将有一个简单的 INC 指令(或者可能是 ADD),而 __sync
版本将在该指令上有一个 LOCK 前缀。
那么为什么它在没有 LOCK 前缀的情况下也能工作呢?好吧,虽然一般来说,要在任何基于 x86 的系统上工作都需要 LOCK 前缀,但事实证明它不需要你的系统。使用基于 Intel Core 的芯片,只需要 LOCK 通过总线在不同 CPU 之间进行同步。当在单个 CPU 上运行时(即使有多个内核),它也会在没有它的情况下进行内部同步。
那么,为什么您在 __sync
情况下没有看到减速?嗯,Core i7 是一个“有限”的芯片,因为它只支持单路系统,所以你不能有多个 CPU。这意味着永远不需要 LOCK,事实上 CPU 只是完全忽略它。现在代码大了 1 个字节,这意味着如果您限制了 ifetch 或解码,它可能会产生影响,但您没有,所以您看不出有什么不同。
如果您要在多插槽 Xeon 系统上运行,您会看到 LOCK 前缀的(小)减速,并且还会看到非 LOCK 版本的(罕见)故障。
关于c++ - Linux 上 C++ 中线程/共享内存之间的线程安全数据交换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7824803/