python - 将 openMP 与 Cython 结合使用 : parallelising an inner loop

标签 python multithreading cython

(如您所见,我不太熟悉 Python GIL 和 PYTHON(或 cython)中的多线程等概念)

我在 Cython 中编写了一个函数,该函数由带有双 for 循环的代码片段组成,其中重复调用函数 f。

for i in range(I):
  for j in range(J):
    res=f(A[i],B[j])

我有一台有 4 个 CPU 核心的机器,我想并行化第二个循环而不是第一个循环。 我发现this wonderful website但它不处理内循环的情况,也不赘述。 所以我认为我可以写:

for i in range(I):
  #In what case can I release the GIL safely ? Is that necessary at all ?
  with nogil, parallel(num_threads=4):
    for j in prange(J,shedule="dynamic"):
      res=f(A[i],B[j])

这行得通吗?我是否必须将 with nogil 放在两个循环之外,这样它就不会重复运行释放和“捕获”这个 GIL 的东西?有人可以向我解释一下如何以及编写此类陈述背后的逻辑是什么,以便我能够概括出看不见的问题。

最佳答案

释放和重新捕获 GIL 需要时间成本,设置并行循环也需要时间成本。因此,通常最好将最外面的循环设为并行循环。但是,如果您有充分的理由特别想要并行化内部循环,那么它就会起作用,并且与 f 中包含的实际工作相比,希望成本应该很小。

释放 GIL 会阻止您访问 Python 变量和调用 Python 函数。类型化 Cython 变量、cdef 函数和 Cython 内存 View 工作正常。通过将 with nogil: 放置得尽可能远,您将获得小幅加速。因此,如果可能的话,将其放在外循环周围,但如果不可能,那么在您显示的位置就可以了。

有必要释放到 GIL 来进行 prange 循环。如果有必要,您可以在循环内回收它(with gil),但尝试仅对循环的一小部分执行此操作,并且仅在需要时执行此操作(需要 GIL 的代码不能与其他需要 GIL 的代码)。

对于并行代码来说,res=f(A[i],B[j]) 行有点奇怪,因为只会保存最后一个循环中的 res 。通常,您会写入数组的元素(例如 res[i,j]=f(A[i],B[j]))。但是,可能有充分的理由像您所展示的那样这样做......

如果您尝试执行需要 GIL 的操作,Cython(通常)会警告您,因此最好尝试一下并查看。

关于python - 将 openMP 与 Cython 结合使用 : parallelising an inner loop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45762054/

相关文章:

java - 在JAVA中以编程方式监控JVM的堆栈区域?

java - 是否有必要同步读取列表而不修改列表的方法?

python - 在 buildozer 中编译 Cython 文件时出错

python - 在 Cython 代码中定义将在代码的 C 部分中使用的枚举

python - 赛通/ python : how to catch as exception an external function that "exits" instead of "returns"

python - 埃拉托色尼筛法

python - 如何将结果保存在txt文件中但与打印不同?

python - scipy.sparse.hstack [ValueError : blocks must be 2-D]

python - 使用 Python 安装信号处理程序

java - 如何删除检查/放置的非原子使用并使代码线程安全?