我正在使用带有 GCE VM 的可抢占 TPUv3-8 节点,并且在 TPU 节点被抢占后重新启动它时遇到一些困难。
但是当我尝试重新启动它时,它显示它未处于停止或抢占状态。为什么会发生这种情况以及我应该采取什么措施来解决它。
我还想知道是否有办法自动重启 TPU 节点并运行简单的启动脚本。谢谢
最佳答案
此行为是预期的。
在 Preemptible TPUs文档中提供了有关如何创建 TPU 可抢占节点的信息、最佳实践,如 here 中所述。 .
但是在 Detecting if a TPU has been preempted 的底部部分,您有注意
。
Note: If your Cloud TPU is preempted, you must delete it and create a new one as described in Managing TPUs.
简而言之,如果 TPU VM 被抢占,则无法重新启动它。您必须删除它并创建一个新的。
关于自动重启TPU节点
,只有Preemptible VMs and TPUs (TPU Nodes only)中提到的选项.
Note that the preemptible status of the TPU is independent of the preemptible status of the VM. You can define your TPU as preemptible and the VM as not preemptible, or the other way round. You can also define them both as preemptible.
The most likely combination is a preemptible TPU and a non-preemptible VM.
关于python - 无法在抢占状态下重新启动 TPU 节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71263635/