java - 具有多处理功能的 Jpype 中的内存泄漏

标签 java python jpype

我有一个 python 代码,它通过 jpype 使用 java 库。目前,每次运行我的函数都会检查 JVM 是否存在,如果不存在则创建它

import jpype as jp

def myfunc(i):
  if not jp.isJVMStarted():
    jp.startJVM(jp.getDefaultJVMPath(), '-ea', ('-Djava.class.path=' + jar_location))
  do_something_hard(i)

此外,我想使用 python 多处理库并行化我的代码。每个线程(据说)独立工作,使用不同的参数计算我的函数的值。例如

import pathos

pool = pathos.multiprocessing.ProcessingPool(8)
params = np.arange(100)
result = pool.map(myfunc, params)

此构造工作正常,但在池中使用超过 1 个核心时会出现严重的内存泄漏。我注意到当 python 关闭时所有内存都被释放了,但是当 pool.map 运行时内存仍然会随着时间的推移而累积,这是不可取的。 jpype documentation非常简短,建议通过使用 jp.attachThreadToJVMjp.detachThreadToJVM 包装 python 线程来同步线程。但是,我无法在网上找到一个关于如何实际操作的示例。我尝试用这些语句将函数 do_something_hard 包装在 myfunc 中,但它对泄漏没有影响。我还尝试使用 jp.shutdownJVMmyfunc 结束时显式关闭 JVM。然而,在这种情况下,JVM 似乎在我拥有超过 1 个核心时立即崩溃,这让我相信存在竞争条件。

请帮忙:

  • 发生了什么事?为什么会有竞争条件?不是每个线程都有自己的 JVM 吗?
  • 在我的场景中释放内存的正确方法是什么?

最佳答案

问题出在多处理的本质上。 Python 可以 fork 或 spawn 一个新进程。 fork 选项似乎对 JVM 有重大问题。 Linux 上的默认设置是 fork。

使用生成上下文 (multiprocessing.get_context("spawn")) 创建一个生成的 Python 版本将允许创建一个新的 JVM。每个生成的副本都是完全独立的。 github 上测试目录中的 subrun.py 中有示例,因为它用于测试 JPype 的不同 JVM 选项。

fork 版本创建原始进程的副本,包括以前运行的 JVM。至少从我的测试来看, fork 的 JVM 没有按预期工作。旧版本的 JPype (0.6.x) 将允许 fork 版本调用 startJVM,这会造成很大的内存泄漏。当前版本 0.7.1 给出了 JVM 无法重启的异常。

如果您使用的是线程(而不是进程),所有线程共享同一个 JVM,不需要独立于 JVM。在 github 上的“限制”部分下的最新文档中,有更多关于使用 JPype 进行多处理的文档。

关于java - 具有多处理功能的 Jpype 中的内存泄漏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58695140/

相关文章:

java - JPype 头痛

java - 查看 Unix 中的 java 退出代码

java - 如何在 JSP 上将 Map 的键放入 <select> 中

java - JPy 与 Java 10

python - 重写类方法以检查是否为空

python - 更改 Pandas 数据框中的值,但保留日期列

java - 在 Python 中实际使用 Java 类/JAR?

java - iText 旧版本中 LineSeparator 的替代方案?

java - 在 OpenGL ES (Android) 中使用带有纹理的索引缓冲区有什么意义吗?

python - 在 AND 和 OR 处拆分字符串,保留分隔符