google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型

标签 google-cloud-platform google-compute-engine google-cloud-tpu

我在 us-central1-f 中分配了多个 Google Cloud TPU地区。机种都是v2-8 .

如何利用我所有的 TPU 来训练单个模型?
us-central1-f地区 doesn't support pods ,因此使用 pod 似乎不是解决方案。即使 pod 可用,我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256),因此我无法在单个 pod 中使用它们。

最佳答案

虽然我找不到明确回答这个问题的文档,但我已经阅读了多篇文章和问题并得出结论,如果您正在使用 v2-8v3-8 TPU,不可能一次使用多个。您将不得不使用更大的机器,例如 v2-32v3-32以确保您可以访问更多内核,而 TFRC 程序不会免费提供。

引用:

  • https://cloud.google.com/tpu/docs/types-zones
  • https://cloud.google.com/tpu/docs/training-on-tpu-pods
  • https://github.com/google-research/bert/issues/48
  • https://github.com/google-research/bert/issues/304
  • 关于google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56616604/

    相关文章:

    java - 通过服务访问 key 以编程方式向 Google Compute Engine 进行身份验证

    python - 使用python生成用于将文件上传到谷歌存储的预签名url

    tensorflow - TPU术语混淆

    permissions - 用于cluster-admin的GKE clusterrolebinding失败,出现权限错误

    google-compute-engine - HTTP 负载均衡器切掉了大型请求正文的一部分

    tensorflow - 使用GOOGLE COLAB TPU在IMAGENET上训练VGG-16模型需要多长时间?

    python - 在 Tensorflow 中使用 TPU 时,是否有适当的解决方法来保存本地驱动器中的检查点?

    tensorflow - 值错误 : Operation u'tpu_140462710602256/VarIsInitializedOp' has been marked as not fetchable

    wordpress - 是否可以在 Google Cloud Platform 上的一个存储桶上托管多个网站?

    node.js - 将 Nuxt JS SSR 应用部署到 Google Cloud App Engine Standard