python - 在Python中使用Ray并行化任务,得到 "Aborted (core dumped)"

标签 python parallel-processing ray

我有一个这样的 Python 程序

if __name__ == "__main__":
  ..
  for t in th:
    ..

我正在尝试使用似乎比多处理更快的 Ray 库对其进行并行化,所以我写了

import ray
ray.init()
@ray.remote
def func(t):
  ..

if __name__ == "__main__":
  ..
  for t in th:
    func.remote(t)

但是我得到以下错误:

: cannot connect to X server
*** Aborted at 1590213890 (unix time) try "date -d @1590213890" if you are using GNU date ***
PC: @                0x0 (unknown)
*** SIGABRT (@0xbcb00003d43) received by PID 15683 (TID 0x7fb1394f3740) from PID 15683; stack trace: ***
    @     0x7fb138f47f20 (unknown)
    @     0x7fb138f47e97 gsignal
    @     0x7fb138f49801 abort
    @     0x7fb13760cf11 google::LogMessage::Flush()
    @     0x7fb13760cfe1 google::LogMessage::~LogMessage()
    @     0x7fb137394b49 ray::RayLog::~RayLog()
    @     0x7fb137144555 ray::CoreWorkerProcess::~CoreWorkerProcess()
    @     0x7fb1371445aa std::unique_ptr<>::~unique_ptr()
    @     0x7fb138f4c041 (unknown)
    @     0x7fb138f4c13a exit
    @     0x7fb123e4cb37 (unknown)
    @     0x7fb123ddfa98 QApplicationPrivate::construct()
    @     0x7fb123ddfd0f QApplication::QApplication()
    @     0x7fb127c5d428 (unknown)
    @     0x7fb127c682fd (unknown)
    @     0x7fb127c54898 (unknown)
    @     0x7fb126f0a527 (unknown)
    @           0x50a635 (unknown)
    @           0x50bfb4 _PyEval_EvalFrameDefault
    @           0x507d64 (unknown)
    @           0x50ae13 PyEval_EvalCode
    @           0x634c82 (unknown)
    @           0x634d37 PyRun_FileExFlags
    @           0x6384ef PyRun_SimpleFileExFlags
    @           0x639091 Py_Main
    @           0x4b0d00 main
    @     0x7fb138f2ab97 __libc_start_main
    @           0x5b250a _start
Aborted (core dumped)

我该如何解决?谢谢。

编辑:我在报告错误之前注意到了这个警告。不知道是否相关。

WARNING worker.py:1090 -- Warning: The remote function __main__.func has size 288002587 when pickled. It will be stored in Redis, which could cause memory issues. This may mean that its definition uses a large array or other object.

编辑 2:

函数中的代码包含对矩阵的基本操作和一些阈值处理。我尝试了以下最少的代码:

import ray
ray.init()

@ray.remote
def f(x):
    print(x)

if __name__ == "__main__":
    for x in (1,2,3):
        f.remote(x)

我得到了以下输出:

INFO resource_spec.py:212
-- Starting Ray with 73.1 GiB memory available for workers and up to 35.34 GiB for objects.
You can adjust these settings with ray.init( memory              = <bytes>,
                                             object_store_memory = <bytes>
                                             ).
INFO services.py:1170
-- View the Ray dashboard at localhost:8265.
(pid=26359) 1.
(pid=26350) 3.
(pid=26356) 2.

最佳答案

如果您使用的是集群管理的 Slurm您必须向其提交作业,Ray 才能正常运行。

事实上,这是我的问题,我在找到解决方案之前将其发布在他们的 github 页面上:https://github.com/ray-project/ray/issues/14426

您会在其中找到一个简单的批处理脚本,用于向 Slurm 提交作业。

关于python - 在Python中使用Ray并行化任务,得到 "Aborted (core dumped)",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61968166/

相关文章:

Python共享进程或如何进行高效的暴力破解

c# - 问题与 Task.WhenAll 并行调用 Azure 移动客户端

sql - 是否可以在 dotnet 中引入多线程而不显式创建新线程?

python - 如何使用并行处理加速python函数?

python-3.x - 什么是 ray::IDLE 以及为什么有些 worker 内存不足?

python - Python tasklet 是否违反了 no "GOTO"规则?

python - Pandas 选择读取 JSON 的行

python - 在标准字母上使用字典是否可以与使用文本文件以相同或相似的方式工作?

R foreach并行找不到全局函数

python-3.x - Ray 在 4 个 CPU 核心上工作时性能没有提高