python - 无法在抢占状态下重新启动 TPU 节点

标签 python bash virtual-machine google-compute-engine tpu

我正在使用带有 GCE VM 的可抢占 TPUv3-8 节点,并且在 TPU 节点被抢占后重新启动它时遇到一些困难。

在TPU页面,显示TPU节点已被抢占。 TPU node has been preempted

但是当我尝试重新启动它时,它显示它未处于停止或抢占状态。为什么会发生这种情况以及我应该采取什么措施来解决它。 enter image description here

我还想知道是否有办法自动重启 TPU 节点并运行简单的启动脚本。谢谢

最佳答案

此行为是预期的。

Preemptible TPUs文档中提供了有关如何创建 TPU 可抢占节点的信息、最佳实践,如 here 中所述。 .

但是在 Detecting if a TPU has been preempted 的底部部分,您有注意

Note: If your Cloud TPU is preempted, you must delete it and create a new one as described in Managing TPUs.

简而言之,如果 TPU VM 被抢占,则无法重新启动它。您必须删除它并创建一个新的。

关于自动重启TPU节点,只有Preemptible VMs and TPUs (TPU Nodes only)中提到的选项.

Note that the preemptible status of the TPU is independent of the preemptible status of the VM. You can define your TPU as preemptible and the VM as not preemptible, or the other way round. You can also define them both as preemptible.

The most likely combination is a preemptible TPU and a non-preemptible VM.

关于python - 无法在抢占状态下重新启动 TPU 节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71263635/

相关文章:

linux - 在 shell 脚本中从另一个字符串中剪切并删除一个字符串

powershell - 无法通过 powershell 和门户在 Azure 上创建自定义镜像 VM

virtual-machine - Windows 主机上的 Linux 虚拟机比主机更快

python - 我正在尝试代码,但不知道我在某个页面上遇到错误,例如没有对象属性

python - 如何在 Python 中对稀疏矩阵中的整列进行加法运算

python - pandas:日期/值的数据帧 -> "biggest value so far"的数据帧?

python - 值错误: Failed to commit transaction in 5 attempts

bash - 为列的每个唯一值输出整行一次(Bash)

linux - 使用 wget 下载 shtml 页面上的所有 zip 文件

c++ - 同一个程序运行时间差异很大,有时达到1000+us