google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型

标签 google-cloud-platform google-compute-engine google-cloud-tpu

我在 us-central1-f 中分配了多个 Google Cloud TPU地区。机种都是v2-8 .

如何利用我所有的 TPU 来训练单个模型？
us-central1-f地区 doesn't support pods ，因此使用 pod 似乎不是解决方案。即使 pod 可用，我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256)，因此我无法在单个 pod 中使用它们。

最佳答案

虽然我找不到明确回答这个问题的文档，但我已经阅读了多篇文章和问题并得出结论，如果您正在使用 v2-8或 v3-8 TPU，不可能一次使用多个。您将不得不使用更大的机器，例如 v2-32或 v3-32以确保您可以访问更多内核，而 TFRC 程序不会免费提供。

引用:

https://cloud.google.com/tpu/docs/types-zones

https://cloud.google.com/tpu/docs/training-on-tpu-pods

https://github.com/google-research/bert/issues/48

https://github.com/google-research/bert/issues/304

关于google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56616604/

上一篇：python - 禁用从 python3 urllib3 出现的 HeaderParsingError

下一篇：git - 从存储库中的 "git-lfs"文件中检索原始文件

python - 使用python生成用于将文件上传到谷歌存储的预签名url

tensorflow - TPU术语混淆

permissions - 用于cluster-admin的GKE clusterrolebinding失败，出现权限错误

google-compute-engine - HTTP 负载均衡器切掉了大型请求正文的一部分

tensorflow - 使用GOOGLE COLAB TPU在IMAGENET上训练VGG-16模型需要多长时间？

python - 在 Tensorflow 中使用 TPU 时，是否有适当的解决方法来保存本地驱动器中的检查点？

tensorflow - 值错误 : Operation u'tpu_140462710602256/VarIsInitializedOp' has been marked as not fetchable

wordpress - 是否可以在 Google Cloud Platform 上的一个存储桶上托管多个网站？

node.js - 将 Nuxt JS SSR 应用部署到 Google Cloud App Engine Standard