python - Dask 工作人员似乎死了,但无法找到工作人员日志来找出原因

标签 python dask

我有一段在本地计算机上运行的 DASK 代码,它可以在 90% 的时间内工作,但有时会卡住。卡住的意思。没有崩溃,没有错误打印,没有CPU使用情况。永远不会结束。

我谷歌了一下,认为这可能是因为一些 worker 死了。如果我能看到工作日志并找出原因,我将非常有用。 但我找不到我的 worker 日志。我去编辑 config.yaml 以添加日志记录,但仍然没有从 stderr 中看到任何内容。 然后我转到仪表板 --> 信息 --> 日志并看到空白页面。

它卡住的代码是 X_test = df_test.to_dask_array(长度=True) 或者 概率 = y_pred_proba_train[:, 1].compute()

我的 ~/.config/dask/config.yaml 或 ~.dask/config.yaml 看起来像 记录: 分布式:信息 分布式客户端:警告 分布式工作人员:调试 Bokeh :错误

我正在使用 python 3.6 达克1.1.4 我所需要的只是一种查看日志的方法,以便我可以尝试找出问题所在。

谢谢

约瑟夫

最佳答案

工作日志通常由您用来设置 Dask 的任何系统管理。

也许您使用过 Kubernetes、Yarn 或 SLURM 之类的东西?

这些系统都有办法取回日志。

不幸的是,一旦 Dask 工作线程不再运行,Dask 本身就无法为您收集日志。您需要使用用于启动 Dask 的系统。

关于python - Dask 工作人员似乎死了,但无法找到工作人员日志来找出原因,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57618323/

相关文章:

python - 如何在 Django-Celery 中设置失败时重试任务

python - SQLAlchemy:如何在 Python 中以不同于数据库的方式表示数据

python - 你如何在 Seaborn 中为 kde plot 创建一个传奇?

带有pyarrow内存的dask read_parquet爆炸

python - 在 python 中读取 15 M 行 csv 文件的有效方法

python - 不同路径之间的多个公共(public)前缀

python - 如何转换Python字符串

python - Dask DataFrame Groupby 分区

dask - 从任务中获取 Dask 工作线程的 ID

python - 合并从 csv 文件导入的 Dask 数据帧