kubernetes - 如何使用 Google Compute Engine Instances 设置 Tensorflow 集群来训练模型?

标签 kubernetes tensorflow-serving gcp

我知道可以使用 docker 镜像,但是我需要 Kubernetes 来创建集群吗?有可用于模型服务的说明,但是在 Kubernetes 上进行模型训练呢?

最佳答案

您可以使用 Kubernetes Jobs运行批量计算任务。但是目前(大约 v1.6)在 Kubernetes 中设置数据管道并不容易。

您可能想查看 Pachyderm ,它是一个建立在 Kubernetes 之上的数据处理框架。它添加了一些不错的数据打包/版本控制工具。

关于kubernetes - 如何使用 Google Compute Engine Instances 设置 Tensorflow 集群来训练模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40326125/

相关文章:

git - 是否有其他方法可以使用 GitSync 将 DAG 从私有(private)存储库挂载到 Kubernetes 上的 Airflow,而无需使用 SSH key ?

python - 嵌套的 Bazel 项目

java - 如何从 Java Map 创建 TensorProto

tensorflow - 无法将 .h5 模型转换为 ONNX 以通过任何方式进行推理

cloud - 创建 gpu 谷歌实例时出错

kubernetes - 热替换 kubernetes configMap 中的数据

php - GKE/运行 php 应用程序/通过 nginx 或 apache 公开?

json - 在gcloud上使用kubernetes暴露端口80?

google-cloud-platform - 在 Google Cloud Platform 中启用双因素身份验证

stackdriver - 我们可以禁用 GCP Stackdriver 对日志行的截断吗?