c++ - 是否可以为并行区域中的共享二维数组创建选择元素的线程本地拷贝? (共享、私有(private)、屏障 : OPenMP)

标签 c++ multithreading openmp barrier

我有一个 n 的二维网格x n元素。在一次迭代中,我通过平均相邻元素的值来计算一个元素的值。即:

    for(int i=0;i<n;i++)
        for(int j=0;j<n;j++)
            grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;

我需要为 iter 运行上面的嵌套循环迭代次数。 我需要的是:

  1. 我需要线程计算这个平均值,等到所有线程都完成计算,然后一次性更新网格。
  2. iter 的循环迭代将按顺序运行,但每次迭代期间,grid[i][j] 的值对于每个 ij应该并行计算。

为了做到这一点,我有以下想法和问题:

  1. 也许使网格共享 并放置计算grid[i][j] 所需的网格中选定的4 个元素的拷贝。通过仅将这 4 个元素设为线程的私有(private)。 (基本上网格由所有线程共享,但每个线程中也有 4 个 迭代特定 元素的本地拷贝。)这可能吗?
  2. barrier实际上需要所有线程完成然后开始下一次迭代吗?

我对 OpenMP 的思维方式还很陌生,完全迷失在这个简单的问题中。如果有人能帮助解决我的困惑,我将不胜感激。

最佳答案

  1. 在实践中,您希望线程数比网格点数(少得多),因此每个线程将计算一整串点(例如,一行)。启动 OpenMP(或任何其他类型的)线程会产生一定的开销,并且您的程序无论如何都将受内存限制而不是 CPU 限制。因此,为每个网格点启动一个线程将破坏并行计算的全部目的。因此,不推荐您的第 1 个想法(尽管我不太确定我是否理解正确;也许这不是您的提议)。

  2. 我建议(其他人在 OP 评论中也指出)分配两倍的内存来存储网格值,并使用两个在迭代之间交换的指针:一个指向内存,其中包含以前的迭代值只读的,另一个是只写的新迭代值。请注意,您只会交换指针,而不是实际复制内存。迭代完成后,您可以将最终结果复制到所需位置。

  3. 是的,您需要在迭代之间同步线程,但是在 OpenMP 中,这通常是通过在迭代循环中打开一个并行区域来隐式完成的(在并行区域的末尾有一个隐式屏障):

    for (int iter = 0; iter < niter; ++iter)
    {
        #pragma omp parallel
        {
            // get range of points for current thread
            // loop over thread's points and apply the stencil
        }
    }
    

    或者,使用 parallel for 结构:

    const int np = n*n;
    for (int iter = 0; iter < niter; ++iter)
    {
        #pragma omp parallel for
        for (int ip = 0; ip < np; ++ip)
        {
            const int i = ip / n;
            const int j = ip % n;
            // apply the stencil to [i,j]
        }
    }
    

    第二个版本将在可用线程之间自动平均分配工作,这很可能是您想要的。首先,您必须手动完成。

关于c++ - 是否可以为并行区域中的共享二维数组创建选择元素的线程本地拷贝? (共享、私有(private)、屏障 : OPenMP),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45762084/

相关文章:

c++ - 如何将某个类的指针方法转换为指针函数?

C# 在多种方法中锁定对象

android - 如何在 Android 8.0 中正确更新小部件 - Oreo - API 26

c++ - 主区域 : "master region may not be closely nested inside of work-sharing or explicit task region" 的 OpenMP for 循环

c++ - BOOST 单元测试覆盖运算符<<

c++ - 从字符串中删除字符的第一个和最后一个实例?

c++ - 完美转发一个参数包: convert args without expansion?

multithreading - 读取大数据 block 时是否会出现竞争条件?

c++ - OpenMP 为内联函数声明 SIMD

Fortran、Open MP、间接递归和有限的堆栈内存