c++ - 使用数组元素的 OpenMP 并行化

我一直在尝试使用 OpenMP，并尝试查看是否可以在特定的 C++ 代码中获得加速。

    #pragma omp parallel for
    for (Index j=alignedSize; j<size; ++j)
    {
      res[j] = cj.pmadd(lhs0(j), pfirst(ptmp0), res[j]);
      res[j] = cj.pmadd(lhs1(j), pfirst(ptmp1), res[j]);
      res[j] = cj.pmadd(lhs2(j), pfirst(ptmp2), res[j]);
      res[j] = cj.pmadd(lhs3(j), pfirst(ptmp3), res[j]);
    }

我是 OpenMP 的新手，所以请多多关照，但有人可以解释一下为什么这段代码最终会加倍执行时间而不是加快执行速度吗？

我用 4 个内核运行，以防万一。

最佳答案

res 条目的大小是多少？如果它小于缓存行的大小，那么它可能是 false sharing .

关于c++ - 使用数组元素的 OpenMP 并行化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41202000/

上一篇：c++ - 函数原型(prototype)返回错误

下一篇：c++ - 获取具有通用返回类型的函数

相关文章：

java - JNI 函数是线程安全的吗？

c - openmp中的Pi不依赖于线程

c++ - 将特征稀疏矩阵与 C 数组相乘

C++ ofstream浮点编码

c++ - 我的归并排序算法使用 OpenMP 时速度较慢，我怎样才能让它比序列化形式更快？

c++ - 仅优化调试配置中的单个方法

c++ - 与 NAN 的特征矩阵和

c++ - 初始化类中的模板对象 (c++)

c++ - 有没有办法检查 QObject 指针在 Qt 中是否仍然有效？

c++ - 将头文件和 .cpp 文件包含到主 .cpp 文件中 LNK2005 错误已在对象中定义