我一直在尝试使用 OpenMP,并尝试查看是否可以在特定的 C++ 代码中获得加速。
#pragma omp parallel for
for (Index j=alignedSize; j<size; ++j)
{
res[j] = cj.pmadd(lhs0(j), pfirst(ptmp0), res[j]);
res[j] = cj.pmadd(lhs1(j), pfirst(ptmp1), res[j]);
res[j] = cj.pmadd(lhs2(j), pfirst(ptmp2), res[j]);
res[j] = cj.pmadd(lhs3(j), pfirst(ptmp3), res[j]);
}
我是 OpenMP 的新手,所以请多多关照,但有人可以解释一下为什么这段代码最终会加倍执行时间而不是加快执行速度吗?
我用 4 个内核运行,以防万一。
最佳答案
res
条目的大小是多少?如果它小于缓存行的大小,那么它可能是 false sharing .
关于c++ - 使用数组元素的 OpenMP 并行化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41202000/