我在 us-central1-f
中分配了多个 Google Cloud TPU地区。机种都是v2-8
.
如何利用我所有的 TPU 来训练单个模型?us-central1-f
地区 doesn't support pods ,因此使用 pod 似乎不是解决方案。即使 pod 可用,我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256),因此我无法在单个 pod 中使用它们。
最佳答案
虽然我找不到明确回答这个问题的文档,但我已经阅读了多篇文章和问题并得出结论,如果您正在使用 v2-8
或 v3-8
TPU,不可能一次使用多个。您将不得不使用更大的机器,例如 v2-32
或 v3-32
以确保您可以访问更多内核,而 TFRC 程序不会免费提供。
引用:
关于google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56616604/