tensorflow - 无法运行tensorflow分布式MNIST测试

标签 tensorflow distributed deep-learning

我通过从源代码构建安装了tensorflow 0.8。 我使用具有 4 个 GPU 的 AWS EC2 g2.8xlarge 实例。 我尝试运行tensorflow分布式mnist测试,代码在这里: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh

我的脚本:

bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"

我收到了这条消息:

E0609 14:53:07.430440599   62872 tcp_client_posix.c:173]     failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934   62873 tcp_client_posix.c:173]     failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused

有人知道这里出了什么问题吗?非常感谢!

最佳答案

该脚本不能独立运行。特别是,它期望您在运行脚本之前创建一个 TensorFlow 集群,并在每个地址上运行工作线程。 create_tf_cluster.sh脚本可以使用 Kubernetes 设置这样的集群。 dist_test.sh script 端到端运行这些脚本。

参见my answer回答你的另一个问题,其中有一个在分布式 TensorFlow 上运行 MNIST 的建议脚本。

关于tensorflow - 无法运行tensorflow分布式MNIST测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37729746/

相关文章:

machine-learning - 现代 CNN(卷积神经网络)作为 DetectNet 旋转不变吗?

machine-learning - 在激活函数的反向传播过程中,为什么我们应该将 delta 乘以梯度而不是除法?

python - 使用 tensorflow 逃避局部最小值

matlab - Matlab 中的并行处理

python - 如何用Cython包装Tensorflow并让C++调用它?

ruby-on-rails - Sidekiq - 防止工作人员在特定机器上执行

java - 我需要确定字符串格式 IE D-A 的两张卡之间的高卡

python - pytorch 中的 ReduceLrOnPlateau 调度程序可以使用测试集度量来降低学习率吗?

Tensorflow 看不到 GPU 而是使用 CPU,这是怎么回事?

python - 在 Tensorflow 中执行特征选择