kubernetes - 如何将数据集放在 gcloud kubernetes 集群上?

标签 kubernetes google-cloud-platform dask dask-distributed

我初始化了一个 gcloud Kubernetes 集群,我在本地机器上使用 Dask 客户端连接到集群,但我似乎找不到任何关于如何将我的数据集上传到集群的文档。

我最初尝试只在本地运行 Dask,并将我的数据集加载到我的本地 RAM 中,但显然这是通过网络发送它,并且集群在执行任务时仅以 2% 的利用率运行。

有没有办法将数据集放到 Kubernetes 集群上,这样我就可以获得 100% 的 CPU 利用率?

最佳答案

许多人将数据存储在云对象存储上,例如亚马逊的 S3、谷歌云存储。

如果您对 Dask 特别感兴趣,大多数数据摄取功能都支持这些数据存储,方法是使用如下协议(protocol):

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的 Python 库才能访问此云存储(在本例中为 gcsfs)。参见 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations获取更多信息。

关于kubernetes - 如何将数据集放在 gcloud kubernetes 集群上?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49673945/

相关文章:

docker - 使用 tensorflow 服务时的数据处理 (Docker/Kubernetes)

python - 有没有办法通过 JSON key 文件本身而不是文件路径进行 Google Cloud Python 身份验证?

reactjs - 当我部署到 Google App Engine 时,我的 React 前端没有改变

python - 如何将函数应用于 dask 数据帧并返回多个值?

python - Pandas 大 CSV

kubernetes - 谷歌 Kubernetes 引擎入口不起作用

kubernetes - GKE RBAC 角色/角色绑定(bind)以访问集群中的节点状态

kubernetes - 使用多种自动伸缩机制来自动伸缩 K8s 集群

python - 在 cloudshell (Google App Engine) 中的何处查找已部署的应用程序文件?

python - ValueError : Sample is not large enough to include at least one row of data. 请增加 `sample` 中的字节数