我知道可以使用 docker 镜像,但是我需要 Kubernetes 来创建集群吗?有可用于模型服务的说明,但是在 Kubernetes 上进行模型训练呢?
最佳答案
您可以使用 Kubernetes Jobs运行批量计算任务。但是目前(大约 v1.6)在 Kubernetes 中设置数据管道并不容易。
您可能想查看 Pachyderm ,它是一个建立在 Kubernetes 之上的数据处理框架。它添加了一些不错的数据打包/版本控制工具。
关于kubernetes - 如何使用 Google Compute Engine Instances 设置 Tensorflow 集群来训练模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40326125/