kubernetes - 如何将数据集放在 gcloud kubernetes 集群上？

我初始化了一个 gcloud Kubernetes 集群，我在本地机器上使用 Dask 客户端连接到集群，但我似乎找不到任何关于如何将我的数据集上传到集群的文档。

我最初尝试只在本地运行 Dask，并将我的数据集加载到我的本地 RAM 中，但显然这是通过网络发送它，并且集群在执行任务时仅以 2% 的利用率运行。

有没有办法将数据集放到 Kubernetes 集群上，这样我就可以获得 100% 的 CPU 利用率？

最佳答案

许多人将数据存储在云对象存储上，例如亚马逊的 S3、谷歌云存储。

如果您对 Dask 特别感兴趣，大多数数据摄取功能都支持这些数据存储，方法是使用如下协议(protocol):

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的 Python 库才能访问此云存储(在本例中为 gcsfs)。参见 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations获取更多信息。

关于kubernetes - 如何将数据集放在 gcloud kubernetes 集群上？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49673945/