java - 具有多处理功能的 Jpype 中的内存泄漏

我有一个 python 代码，它通过 jpype 使用 java 库。目前，每次运行我的函数都会检查 JVM 是否存在，如果不存在则创建它

import jpype as jp

def myfunc(i):
  if not jp.isJVMStarted():
    jp.startJVM(jp.getDefaultJVMPath(), '-ea', ('-Djava.class.path=' + jar_location))
  do_something_hard(i)

此外，我想使用 python 多处理库并行化我的代码。每个线程(据说)独立工作，使用不同的参数计算我的函数的值。例如

import pathos

pool = pathos.multiprocessing.ProcessingPool(8)
params = np.arange(100)
result = pool.map(myfunc, params)

此构造工作正常，但在池中使用超过 1 个核心时会出现严重的内存泄漏。我注意到当 python 关闭时所有内存都被释放了，但是当 pool.map 运行时内存仍然会随着时间的推移而累积，这是不可取的。 jpype documentation非常简短，建议通过使用 jp.attachThreadToJVM 和 jp.detachThreadToJVM 包装 python 线程来同步线程。但是，我无法在网上找到一个关于如何实际操作的示例。我尝试用这些语句将函数 do_something_hard 包装在 myfunc 中，但它对泄漏没有影响。我还尝试使用 jp.shutdownJVM 在 myfunc 结束时显式关闭 JVM。然而，在这种情况下，JVM 似乎在我拥有超过 1 个核心时立即崩溃，这让我相信存在竞争条件。

请帮忙:

发生了什么事？为什么会有竞争条件？不是每个线程都有自己的 JVM 吗？
在我的场景中释放内存的正确方法是什么？

最佳答案

问题出在多处理的本质上。 Python 可以 fork 或 spawn 一个新进程。 fork 选项似乎对 JVM 有重大问题。 Linux 上的默认设置是 fork。

使用生成上下文 (multiprocessing.get_context("spawn")) 创建一个生成的 Python 版本将允许创建一个新的 JVM。每个生成的副本都是完全独立的。 github 上测试目录中的 subrun.py 中有示例，因为它用于测试 JPype 的不同 JVM 选项。

fork 版本创建原始进程的副本，包括以前运行的 JVM。至少从我的测试来看， fork 的 JVM 没有按预期工作。旧版本的 JPype (0.6.x) 将允许 fork 版本调用 startJVM，这会造成很大的内存泄漏。当前版本 0.7.1 给出了 JVM 无法重启的异常。

如果您使用的是线程(而不是进程)，所有线程共享同一个 JVM，不需要独立于 JVM。在 github 上的“限制”部分下的最新文档中，有更多关于使用 JPype 进行多处理的文档。

关于java - 具有多处理功能的 Jpype 中的内存泄漏，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58695140/

java - 具有多处理功能的 Jpype 中的内存泄漏

上一篇：pandas - 如何针对通过 IntervalIndex 定义的列范围计算 2D DataFrame bin 的统计值？

下一篇：reactjs - 如何在 React 应用程序中添加 sitemap.xml 并将其公开？