tensorflow - 如何在 GKE 上运行分布式 Tensorflow?

标签 tensorflow

我想在 GKE 上运行分布式 Tensorflow。 您想要一个来自 GKE 设置的分布式 TensorFlow 的最新运行示例。 你知道一个好的样本吗?

最佳答案

最近在 OSCON 和 PyCon 上举办的研讨会 ( slides ) 涵盖了(除其他外)在 Kubernetes 上运行分布式 TensorFlow。有一个GitHub repository包括必要的配置脚本和可用于与集群交互的 Jupyter 笔记本。

有关更多详细信息,请参阅研讨会,但基本思想是主服务器、每个工作程序和每个参数服务器在大小为 1 的单独 Kubernetes 复制 Controller 中运行。Kubernetes 为每个进程提供稳定的名称,您可以用于构建tf.train.ClusterSpec,并互连不同的进程。

还有其他方法来设置集群,这需要更多配置,但本教程很好地介绍了如何在 word2vec 模型上设置同步训练。

关于tensorflow - 如何在 GKE 上运行分布式 Tensorflow?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37720799/

相关文章:

python - 我的神经网络模型有什么问题?

python - 我该如何/在哪里放置这个 tensorflow 随机森林教程的训练数据?

tensorflow - 如何使用孪生网络保存、恢复、预测(带有三元组损失)

tensorflow - 是否有相当于 fastai 的 interp.plot_top_losses 的 Tensorflow 或 Keras?

machine-learning - tensorflow tf.nn.conv2d 中的特征编号

python - 一热编码字符

python - Keras 的 CategoricalCrossEntropy 到底在做什么?

python - tensorflow 服务是否适用于多个输入(或输出)?

python - 在 Keras 中,训练有状态 LSTM 模型后,是否必须在预测值时重新训练模型?

tensorflow - 在 Tensorflow 中估算缺失值?