几个月来我一直在使用 GCP 抢占式虚拟机,没有出现任何问题,但在过去的 4 周里,我的实例在运行 10 到 20 分钟后一直关闭。
我正在训练,我的笔记本电脑会突然断开连接。终端将显示此错误:
jupyter@fastai-instance:~$ Connection to 104.154.142.171 closed by remote host.
Connection to 104.154.142.171 closed.
ERROR: (gcloud.compute.ssh) [/usr/bin/ssh] exited with return code [255].
然后我检查我的 VM 的状态,看它是否已关闭。
我搜索了终端回溯并找到了这个看起来很有希望的线程:ERROR: (gcloud.compute.ssh) [/usr/bin/ssh] exited with return code [255]
当我运行 sudo gcloud compute config-ssh
时,我的 VM 在关闭之前运行的时间比平时长得多,但在大约一个小时后以相同的方式关闭。从那以后,又回到了同样的行为。
我知道当平台需要资源时可以关闭抢占式实例,但我的理解是它会伴随某种警告。我在关闭后检查了 GCP 服务器的状态,它们看起来很好。每次我打开 VM 时,这种情况也会以同样的方式发生,这对于抢占来说似乎太频繁了。
我不知道去哪里寻找任何线索——有没有其他人遇到过这样的问题?让我特别困惑的是,如果这实际上是一个 SSH 问题,为什么会导致 VM 本身关闭,而不是仅仅断开连接?
非常感谢您的帮助!
最佳答案
您是否尝试设置 shutdown script并在文件中打印一些内容以在 VM 出现故障时验证其状态?
试试这个作为关机脚本
#!/bin/bash
curl "http://metadata.google.internal/computeMetadata/v1/instance/preempted" -H "Metadata-Flavor: Google" > /tmp/preempted.log
如果文件中有TRUE,那是因为VM被抢占了。
关于ssh - GCP VM 在没有警告的情况下持续关闭,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58256153/