我想在 GKE 上运行分布式 Tensorflow。 您想要一个来自 GKE 设置的分布式 TensorFlow 的最新运行示例。 你知道一个好的样本吗?
最佳答案
最近在 OSCON 和 PyCon 上举办的研讨会 ( slides ) 涵盖了(除其他外)在 Kubernetes 上运行分布式 TensorFlow。有一个GitHub repository包括必要的配置脚本和可用于与集群交互的 Jupyter 笔记本。
有关更多详细信息,请参阅研讨会,但基本思想是主服务器、每个工作程序和每个参数服务器在大小为 1 的单独 Kubernetes 复制 Controller 中运行。Kubernetes 为每个进程提供稳定的名称,您可以用于构建tf.train.ClusterSpec
,并互连不同的进程。
还有其他方法来设置集群,这需要更多配置,但本教程很好地介绍了如何在 word2vec 模型上设置同步训练。
关于tensorflow - 如何在 GKE 上运行分布式 Tensorflow?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37720799/