c - 函数的 OpenMP 优化

标签 c optimization openmp

我们接到了一项任务,即使用 openmp 优化结构不佳的程序。我是编程新手,所以我希望任何人都可以阐明如何优化此功能(我需要优化的众多功能之一):

void
entry_type3(F2D *sData, F2D *ones, F2D *quat, F2D **pos, F2D **vel)
{
    //Observation

   F2D *t;

   t = fSetArray(1, 3, 0);
    asubsref(t,2) = -9.8;


    F2D *accl = fDeepCopyRange(sData, 0, 1, 0, 3);
    F2D *gtemp = fMtimes( ones, t);
    F2D *gravity = quatRot(gtemp, quat);



    fFreeHandle(gtemp);
    fFreeHandle(t);

   t = fSetArray(3,3,0);
    asubsref(t,0) = 1;
    asubsref(t,4) = 1;
    asubsref(t,8) = 1;

    int n = ones->height;
    int i;
    for(i=0; i<(t->height*t->width); i++)
            asubsref(t,i) = asubsref(t,i)/STDDEV_ACCL;

   F2D *w = mcl( gravity, accl, t);

    generateSample(w, quat, *vel, *pos);
    fFreeHandle(t);


    //Motion model
  t = fMtimes(ones, accl);
    fFreeHandle(accl);
    accl = fMinus(t, gravity);
    fFreeHandle(w);
    fFreeHandle(gravity);
    fFreeHandle(t);




    F2D *is;
    #pragma omp parallel sections
    {
        #pragma omp section
        {
            F2D *is = quatConj(quat);
            F2D *s = quatRot(*vel, is);
            fFreeHandle(is);
            for(i=0; i<(s->height*s->width); i++)
            {
                 asubsref(s,i) = asubsref(s,i)*acclTimeInterval;
            }
            is = fPlus(*pos, s);
            fFreeHandle(*pos);
            *pos = fDeepCopy(is);
            fFreeHandle(is);
            fFreeHandle(s);
         }


        /** pos_ above stores: pos+quatRot(vel,quatConj(quat))*acclTimeInterval **/

        #pragma omp section
        {
            F2D *is = quatConj(quat);
            F2D *s = quatRot(accl, is);
            F2D* t = fDeepCopy(s);

            for(i=0; i<(s->height*s->width); i++)
            {
                asubsref(t,i) = 1/2*asubsref(s,i)*acclTimeInterval*acclTimeInterval;
            }

            /** t_ above stores: 1/2*quatRot(accl,quatCong(quat))*acclTimeInterval^2 **/

            fFreeHandle(s);
            fFreeHandle(is);


 s = randnWrapper(n,3);

            for(i=0; i<(s->height*s->width); i++)
            {
                asubsref(s,i) = asubsref(s,i) * M_STDDEV_POS;
            }

            /** s_ above stores: randn(n,3)*M_STDDEV_POS **/

       is = fPlus(*pos, t);
           fFreeHandle(*pos);
         *pos = fPlus(is, s);

            fFreeHandle(s);
            fFreeHandle(t);
            fFreeHandle(is);
    } 

}        
        //vel=vel+accl*acclTimeInterval+randn(n,3)*M_STDDEV_VEL;
#pragma omp parallel sections
{
#pragma omp section
{
 F2D *t = fDeepCopy(accl);
#pragma omp parallel for
    for(i=0; i<(accl->height*accl->width); i++)
    {
            asubsref(t,i) = asubsref(accl,i) * acclTimeInterval;
    }

    is = fPlus(*vel, t);
    fFreeHandle(accl);
    fFreeHandle(t);
}
#pragma omp section
{

 F2D *s = randnWrapper(n,3);
#pragma omp parallel for
    for(i=0; i<(s->height*s->width); i++)
    {
            asubsref(s,i) = asubsref(s,i) * M_STDDEV_VEL;
    }

    fFreeHandle(*vel);
    *vel = fPlus(is, s);
    fFreeHandle(is);
    fFreeHandle(s);
}
}
}

我已经添加了几个 openmp 并行,但它仍然运行得很慢,所以我希望如果你们经验丰富的老手能指出我应该关注哪些地方以提高性能。

最佳答案

现在,看起来只是杂乱无章地放置了一些 pragma,而没有考虑代码的并行性。现在,您并没有真正拆分处理器上的工作,您实际上是在通过让每个内核做同样的事情来重复工作(并且可能会以这种方式产生一些严重的错误答案)。很高兴看到原作,看到你改变了什么。您实际上需要以编程方式拆分任务(即,如果您正在处理图像,您需要告诉处理器 1 处理奇数像素,处理器 2 处理偶数像素,OpenMP 不够聪明,无法弄清楚).如果这看起来没有那么有用,我很抱歉,但是说这是一个作业,我认为你可能需要自己计算出一定数量 - 但重要的是 OpenMP 不能只是让代码并行,你需要告诉它如何。查看 omp_get_num_threads() 和 omp_get_thread_num()。

关于c - 函数的 OpenMP 优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13523620/

相关文章:

计算 c 中的问题(visual studio)

Python 相当于 PyErr_Print()

file - 编辑文件总是有 O(N) 时间复杂度吗?

c++ - 仅测试集合集合中的每个元素一次

最多不能超过 50%。矩阵乘法的理论性能

c++ - 如何使用指针从不同的函数访问局部变量?

c - c 中的队列 我的代码或算法有问题吗?

你能告诉我这个 SSE 代码有什么问题以及如何做得更好吗?

c++ - OpenMP #pragma,只有一个线程在处理我的代码

c++ - 如果项目仅使用 OpenMP 构建,会发生什么差异