python - Dask 依赖图中的容错

标签 python dask dask-distributed

我有一个小集群,我使用以下方法部署了一个 dask 图:

from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)

当然,在工作流程中,我有很多并行运行的任务。然而,有时,一个工作人员正在运行的模块中会出现错误。一旦该模块发生故障,它就会返回到调度程序,然后调度程序会停止并行运行的其他工作(即使其他工作不依赖于此)。这让他们中途停下来。

有没有办法让其他人完成然后失败,而不是立即关闭它们?

最佳答案

Client.get 函数是全有或全无的。您可能应该看看 future 界面。在这里,您将启动许多恰好相互依赖的计算。能完成的就完成。

参见https://docs.dask.org/en/latest/futures.html

关于python - Dask 依赖图中的容错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54657511/

相关文章:

python - Dask 计算非常慢

dask - 如何在 Dask 分布式 SSHCluster 中正确设置工作端口?

python - 为什么我的程序停止响应?

python - 如何从字符串中找到子字符串列表的位置?

python - 无法在thrift教程中导入shared.SharedService

python - 寻找支持GIT的Windows文本编辑器

python - 根据 2 个现有列的值将新列分配(添加)到 dask 数据框 - 涉及条件语句

python - dask 和 pandas 数据帧中 apply 的不兼容性

python - Dask - 如何将任务分配给特定的 CPU

python - 使用 Python 在 Parquet 中嵌套数据