amazon-web-services - Chrome/Firefox 浏览器因 AWS Sagemaker 和 Jupyter 而崩溃 - 如何记录/调试?

标签 amazon-web-services google-chrome tensorflow firefox jupyter-notebook

我在 Jupyter 上创建了一个学习/模型拟合笔记本,并且在过去的一年里一直在我的游戏笔记本电脑上使用它,没有什么问题。

由于我现在将训练数据集增加了 10 倍,我想将 Jupyter notebook 移动到 AWS Sagemaker,这样它就可以提供额外的马力,这样我就不必把笔记本电脑留在 table 上了在训练完成之前打开无法使用。

我创建了 Sagemaker 实例,并打开了 Jupyter notebook。使用在我的笔记本电脑上运行 3 小时内的代码和原始数据,我尝试在笔记本电脑上运行单元格,以获得总时间,这样我就可以为我的大型运行选择正确的硬件方案。

每次我尝试运行笔记本时,它都会使浏览器崩溃。我已经在 Windows 10 和 Ubuntu 16.04 笔记本电脑上尝试过 Chrome 和 Firefox。

我不知道如何做两件我认为可能有帮助的事情。
1)查看jupyter notebook服务器代码日志。我创建了生命周期创建/启动脚本,然后查看通过 Cloudwatch 创建的日志,与那里的崩溃无关。 2) 查看浏览器里面的日志。我在两者上都打开了开发者模式,但是一旦它因“Aw snap”等崩溃而崩溃,我就无法再在窗口中执行任何操作,因此我看不到任何输出。

这是一段试图运行的代码。我试过 show_metric=True 和 False:

from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)

# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))

我是一个很好的 googler,但没有找到任何帮助。 AWS 文档让我很困惑。有人有什么建议吗?

最佳答案

感谢您使用 Amazon SageMaker。我建议在 AWS SageMaker https://forums.aws.amazon.com/forum.jspa?forumID=285&start=0 下打开 AWS 论坛帖子以便 SageMaker 团队可以与您合作,以更多地了解您正在使用的实例类型、您的笔记本实例 Arn 等。

关于amazon-web-services - Chrome/Firefox 浏览器因 AWS Sagemaker 和 Jupyter 而崩溃 - 如何记录/调试?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55108048/

相关文章:

amazon-web-services - 如何保护从单个 Windows 计算机访问此端点

hadoop - 从 S3 读取超过 500GB 的数据并将 400GB 输出保存到 S3 是个好主意吗?

java - 从另一个 Java Lambda 调用 AWS JAVA LAMBDA 的问题

javascript - 获取缓存文件 chrome 扩展

javascript - 为什么我的网站导航在谷歌浏览器中消失了?

javascript - Chrome Native Messaging API chrome.runtime.connectNative 不是函数

amazon-web-services - 适用于 SQL Server 的 AWS RDS Cloudformation 模板

python - Tensorflow 深度 MNIST : Resource exhausted: OOM when allocating tensor with shape[10000, 32,28,28]

python - 自定义环境的 Tensorflow 2.0 DQN 代理问题

python - 如何将TesorFlow拉入Docker Windows容器?