python - Dask:处理 react 迟钝的 worker

标签 python dask dask-distributed

将 Dask 与 SGE 或 PBS 集群一起使用时，我有时会遇到工作人员 react 迟钝的情况。
这些工作人员在仪表板信息部分以红色突出显示，其“上次看到”编号不断增加。
我知道如果提交的任务持有 GIL 的时间过长，就会发生这种情况，但这里的情况并非如此。我说的是出现问题的 worker (可能与 dask 或任务本身无关)。
他们不会回来，也不会被检测为死亡。
问题是提交给这些工作人员的任务(他们在收到任务后变得无响应，也许是在加载环境时)永远不会结束并阻止一切。
如果在给定时间内没有响应，是否有允许“超时”或“无效”的设置？
如果没有，是否有可能以及推荐的手动执行此失效并将剩余任务分配给其他 worker 的方法是什么？
在此先感谢您提供有关此问题的任何帮助。

最佳答案

如果有人想知道同样的事情，答案在 following topic 中给出。 .
设置 worker-ttl parameter如果在指定的时间内没有看到 worker ，则允许将其视为死亡。

   worker-ttl:
    type:
    - string
    - "null"
    description: |
      Time to live for workers.
      If we don't receive a heartbeat faster than this then
      we assume that the worker has died.

这可以使用 dask 设置

dask.config.set({"distributed.scheduler.worker-ttl": "120min"})

关于python - Dask:处理 react 迟钝的 worker ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66221545/

上一篇：javascript - Vuex Store Getter 未在 time.isoWeek() 上获取新值

下一篇：patch - 这意味着将修改后的程序作为补丁分发？

相关文章：

python - 如何删除scrapy函数中的项目名称？

python - 如何创建 Premium_LRS SSD 磁盘资源(我的问题可能不是 python 特定的)

python - 每行字符串出现的总和数

python - 正在解析 "AttributeError: module ' dask.bag' 没有属性 'from_filenames' "

dataframe - 达斯克-Kubernetes-教程示例

python - 像关键字一样表达方法

python - 使用Python和Dask计算欧氏距离

python - 如何将类(class)提交到 Dask-Cluster？

python - 我如何在 Dask 分布式工作人员之间共享一个大型只读对象

python - 如何将大于 VRAM 大小的数据传递到 GPU 中？