我有一个 python 代码,它通过 jpype 使用 java 库。目前,每次运行我的函数都会检查 JVM 是否存在,如果不存在则创建它
import jpype as jp
def myfunc(i):
if not jp.isJVMStarted():
jp.startJVM(jp.getDefaultJVMPath(), '-ea', ('-Djava.class.path=' + jar_location))
do_something_hard(i)
此外,我想使用 python 多处理库并行化我的代码。每个线程(据说)独立工作,使用不同的参数计算我的函数的值。例如
import pathos
pool = pathos.multiprocessing.ProcessingPool(8)
params = np.arange(100)
result = pool.map(myfunc, params)
此构造工作正常,但在池中使用超过 1 个核心时会出现严重的内存泄漏。我注意到当 python 关闭时所有内存都被释放了,但是当 pool.map
运行时内存仍然会随着时间的推移而累积,这是不可取的。 jpype documentation非常简短,建议通过使用 jp.attachThreadToJVM
和 jp.detachThreadToJVM
包装 python 线程来同步线程。但是,我无法在网上找到一个关于如何实际操作的示例。我尝试用这些语句将函数 do_something_hard
包装在 myfunc
中,但它对泄漏没有影响。我还尝试使用 jp.shutdownJVM
在 myfunc
结束时显式关闭 JVM。然而,在这种情况下,JVM 似乎在我拥有超过 1 个核心时立即崩溃,这让我相信存在竞争条件。
请帮忙:
- 发生了什么事?为什么会有竞争条件?不是每个线程都有自己的 JVM 吗?
- 在我的场景中释放内存的正确方法是什么?
最佳答案
问题出在多处理的本质上。 Python 可以 fork 或 spawn 一个新进程。 fork 选项似乎对 JVM 有重大问题。 Linux 上的默认设置是 fork。
使用生成上下文 (multiprocessing.get_context("spawn")) 创建一个生成的 Python 版本将允许创建一个新的 JVM。每个生成的副本都是完全独立的。 github 上测试目录中的 subrun.py 中有示例,因为它用于测试 JPype 的不同 JVM 选项。
fork 版本创建原始进程的副本,包括以前运行的 JVM。至少从我的测试来看, fork 的 JVM 没有按预期工作。旧版本的 JPype (0.6.x) 将允许 fork 版本调用 startJVM,这会造成很大的内存泄漏。当前版本 0.7.1 给出了 JVM 无法重启的异常。
如果您使用的是线程(而不是进程),所有线程共享同一个 JVM,不需要独立于 JVM。在 github 上的“限制”部分下的最新文档中,有更多关于使用 JPype 进行多处理的文档。
关于java - 具有多处理功能的 Jpype 中的内存泄漏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58695140/