我初始化了一个 gcloud Kubernetes 集群,我在本地机器上使用 Dask 客户端连接到集群,但我似乎找不到任何关于如何将我的数据集上传到集群的文档。
我最初尝试只在本地运行 Dask,并将我的数据集加载到我的本地 RAM 中,但显然这是通过网络发送它,并且集群在执行任务时仅以 2% 的利用率运行。
有没有办法将数据集放到 Kubernetes 集群上,这样我就可以获得 100% 的 CPU 利用率?
最佳答案
许多人将数据存储在云对象存储上,例如亚马逊的 S3、谷歌云存储。
如果您对 Dask 特别感兴趣,大多数数据摄取功能都支持这些数据存储,方法是使用如下协议(protocol):
import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')
您还需要安装相关的 Python 库才能访问此云存储(在本例中为 gcsfs)。参见 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations获取更多信息。
关于kubernetes - 如何将数据集放在 gcloud kubernetes 集群上?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49673945/