python - 没有这样的文件或目录 : . ../part.0.parquet

标签 python kubernetes dask jupyterhub

将 parquet 文件上传到我的 kubernetes 集群以使用 Dask 进行处理后,在尝试读取时出现 FileNotFoundError

df=dd.read_parquet('home/jovyan/foo.parquet')
df.head()

这是完整的错误:

FileNotFoundError: [Errno 2] No such file or directory: '/home/jovyan/user_engagement_anon.parquet/part.0.parquet'

我可以看到该文件确实存在,并且相对于我的 jupyter 笔记本实例的工作目录,它位于预期位置。

我不确定这是否重要,但为了在我的 kubernetes 集群上启动 dask 客户端,我使用了以下代码:

from dask.distributed import Client, progress

client=Client('dask-scheduler:8786', processes=False, threads_per_worker=4, n_workers=1, memory_limit='1GB')
client

此外,相同的操作在具有相同 parquet 文件的本地计算机上运行良好

最佳答案

问题是我使用 helm 版本单独安装 dask。 因此,dask 工作线程不与 jupyter 笔记本共享相同的文件系统

为了解决这个问题,我使用 dask-kubernetes python 库来创建工作线程,而不是单独的 helm 版本。

关于python - 没有这样的文件或目录 : . ../part.0.parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55252254/

相关文章:

kubernetes - 如何从本地机器向远程Kubernetes集群提交Dask作业

python - 即使字典键中存在属性,getattr 也会返回默认值

python - Pandas `.loc` 到多重分配导致合理的减速

python - 如何删除 pandas 数据框中重复的行?

kubernetes - 在注释中使用 ingressClassName 而不是 kubernetes.io/ingress.class 时,ingress-nginx 不起作用

dictionary - map 指令未正确读取 nginx 入口 Controller kubernetes

python - 如何在dask中实现相对频率函数?

python - 超正方体 OCR : Parameter for Font Size (Single Character)

Kubernetes 在节点变得不可访问后重新安排 pod

python - 重复键值违反唯一约束 - 尝试从 dask 数据帧创建 sql 表时出现 postgres 错误