将 parquet 文件上传到我的 kubernetes 集群以使用 Dask 进行处理后,在尝试读取时出现 FileNotFoundError
df=dd.read_parquet('home/jovyan/foo.parquet')
df.head()
这是完整的错误:
FileNotFoundError: [Errno 2] No such file or directory: '/home/jovyan/user_engagement_anon.parquet/part.0.parquet'
我可以看到该文件确实存在,并且相对于我的 jupyter 笔记本实例的工作目录,它位于预期位置。
我不确定这是否重要,但为了在我的 kubernetes 集群上启动 dask 客户端,我使用了以下代码:
from dask.distributed import Client, progress
client=Client('dask-scheduler:8786', processes=False, threads_per_worker=4, n_workers=1, memory_limit='1GB')
client
此外,相同的操作在具有相同 parquet 文件的本地计算机上运行良好
最佳答案
问题是我使用 helm 版本单独安装 dask。 因此,dask 工作线程不与 jupyter 笔记本共享相同的文件系统
为了解决这个问题,我使用 dask-kubernetes python 库来创建工作线程,而不是单独的 helm 版本。
关于python - 没有这样的文件或目录 : . ../part.0.parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55252254/