machine-learning - Google Cloud ML 训练作业没有日志、没有输出

标签 machine-learning tensorflow google-cloud-ml google-cloud-ml-engine

我正在尝试在 Google 的 Cloud ML 上运行训练作业。我的工作运行的迹象是:

  • 诸如此类的消息表明软件包已构建并安装:

INFO 2017-06-07 15:14:01 -0700 master-replica-0 Successfully built training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 Installing collected packages: training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 Successfully installed training-job-foo-0.1.dev0

INFO 2017-06-07 15:14:01 -0700 master-replica-0 Running command: pip install --user training-job-foo-0.1.dev0.tar.gz

INFO 2017-06-07 15:14:02 -0700 master-replica-0 Processing ./training-job-foo-0.1.dev0.tar.gz

  • 类似这样的消息表明我的工作即将开始:

INFO 2017-06-07 15:14:03 -0700 master-replica-0 Running command: python -m training-job-foo.training_routine_bar --job-dir gs://regional-bucket-similar-to-training-job/output/

  • 类似这样的消息,表明我的标量摘要正在处理中:

INFO 2017-06-07 15:14:21 -0700 master-replica-0 Summary name Total Accuracy is illegal; using Total_Accuracy instead.

  • 最后,我还看到 CPU、内存使用量增加以及我消耗的MLUnits 增加

  • 我应该补充一点,我还看到摘要文件编写器在创建作业之前创建摘要文件,但我没有看到这些文件的大小增加。我还看到写入 gs://regional-bucket-similar-to-training-job/output/的初始检查点文件

除此之外,我没有看到更多的日志或输出。我应该看到日志,因为我经常打印准确性和丢失情况。我还编写摘要和检查点文件。

我错过了什么?

在这种情况下还有哪些其他调试工具可用?我当前所做的就是流式传输日志,在 Cloud ML 控制台上查看作业状态、CPU 使用情况、内存使用情况,并查看我的 Cloud Storage 存储桶是否有任何更改

最佳答案

很抱歉您遇到问题。目前,可用的调试工具是作业日志、指标和 TensorBoard,但似乎所有这些都不能在您的情况下使用。 如果可以的话,能否将您的项目编号和职位 ID 发送至 cloudml-feedback@google.com,以便我们仔细查看?

关于machine-learning - Google Cloud ML 训练作业没有日志、没有输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44423753/

相关文章:

machine-learning - 为什么神经网络中权重的随机初始化会起作用?

google-cloud-platform - 失败的工作怎么办?

machine-learning - Tensorflow 将数据放入其中 (SVHN)

python - Jupyter Notebook Tensorflow MNIST 导入错误 : ImportError: cannot import name batching

python - Google Cloud AI Platform 在线预测请求中是否可以指定服务默认值以外的签名?

python - 在用于服务模型的 Tensorflow 中,服务输入函数应该做什么

python - Nltk Sklearn 一元语法 + 二元语法

python - 学习率、动量和准确度的 3D 图

python - sklearn 中的 predict_proba 如何产生两列?它们的意义是什么?

python - 使用 Python 中的 Keras 和 TensorFlow 无法重现结果