我通过从源代码构建安装了tensorflow 0.8。 我使用具有 4 个 GPU 的 AWS EC2 g2.8xlarge 实例。 我尝试运行tensorflow分布式mnist测试,代码在这里: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh
我的脚本:
bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"
我收到了这条消息:
E0609 14:53:07.430440599 62872 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934 62873 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused
有人知道这里出了什么问题吗?非常感谢!
最佳答案
该脚本不能独立运行。特别是,它期望您在运行脚本之前创建一个 TensorFlow 集群,并在每个地址上运行工作线程。 create_tf_cluster.sh
脚本可以使用 Kubernetes 设置这样的集群。 dist_test.sh
script 端到端运行这些脚本。
参见my answer回答你的另一个问题,其中有一个在分布式 TensorFlow 上运行 MNIST 的建议脚本。
关于tensorflow - 无法运行tensorflow分布式MNIST测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37729746/