matlab - Do 循环在 Matlab 的 Mex 函数 (Fortran) 中与 OpenMP 并行化

标签 matlab parallel-processing openmp mex

我在 Matlab 的 Mex 函数(用 Fortran 编写)中有一个 do 循环,它对 FEM 网格的每个元素执行一些计算。我的网格由 250k 个元素组成,因此我认为值得对其进行并行化。这是我第一次尝试使用 OpenMP 并行化此代码(我是编码初学者)。我使用reduction命令来避免fintk(dofele)=fintk(dofele)+fintele中的竞争条件。这是对的吗?我可以在 Matlab 中编译它,没有任何问题。然而,当我使用它(在 Matlab 中)时,它为 12k 元素网格生成正确的结果,并且比序列化的结果更快,但是当我尝试将它用于 250k 元素网格时,Matlab 崩溃了。谢谢你帮助我

  subroutine loop_over_elements( &
  ! OUT  
  fintk,Sxyz,&
  ! IN                    
  Elem,Bemesh,Dofelemat,u,dt,NE,NDOF)

  use omp_lib
  
  implicit none
  
  mwSize NE, NDOF, ele
  integer,  parameter   :: dp = selected_real_kind(15,307)
  real(dp) :: fintk(NDOF), Sxyz(6,NE), Elemat(4,NE), Bemesh(6,12,NE), Dofelemat(12,NE)
  real(dp) :: u(NDOF)  
  
  real(dp) :: Bele(6,12), fintele(12), uele(12), si(6), dt
  integer*4  :: nodes(4), dofele(12) 
  
  fintk = 0.D0
  
  !$OMP PARALLEL DO REDUCTION(+:fintk(:)) PRIVATE(ele,nodes,Bele,dofele,uele,si,fintele) 
      DO ele = 1, NE 
        nodes   = Elemat(1:4,ele)
        Bele    = Bemesh(1:6,1:12,ele)
        dofele  = Dofelemat(1:12,ele)
        uele    = u(dofele)
        
        call comput_subroutine( &
!       IN
        Bele,uele,dt, &
!       OUT                                        
        si) 
        
        Sxyz(:,ele)   = si
        fintele       = MATMUL(TRANSPOSE(Bele),si)
        fintk(dofele) = fintk(dofele) + fintele
        
      END DO

  !$OMP END PARALLEL DO

  return
  end

最佳答案

我通过在调用 loop_over_elements 子例程之前在通用 mexFunction 子例程中添加此行解决了我遇到的 Matlab“崩溃”问题: 调用 KMP_SET_STACKSIZE(100000000)。我想,既然当我使用带有非并行子程序的大型模型时,Matlab 没有崩溃,也许这是一个内存问题。之后,我在使用带有大型数组的 OpenMp 时发现了众所周知的(不幸的是,对我来说不是)段错误问题(例如参见 this )。我仍然对设置 OMP_STACKSIZE(我不知道如何在 Mex 函数中执行此操作)和 KMP_SET_STACKSIZE 之间的区别感到困惑,但现在并行代码可以工作与大模型。

关于matlab - Do 循环在 Matlab 的 Mex 函数 (Fortran) 中与 OpenMP 并行化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68168880/

相关文章:

performance - 以更干净/更有效的方式过滤数据

c++ - rand中的C++/OpenMP错误

c++ - 将 OpenMP 与 C++ 结合使用的算法库

c++ - MCS锁实现的问题

MATLAB 如何保存图像?

matlab - rand 的第三个输入是什么意思?

matlab - 如何在matlab中将L*a*b*转换为灰度

perl - Parallel::ForkManager() 模块是否支持全局变量同步?

haskell - 我可以得到 `cabal install` 来使用多核吗?

c - 使用 MPI-IO 和笛卡尔拓扑编写分布式数组