我有机会在带有 slurm 工作负载管理器的集群计算机上运行我的 Tensorflow 训练(该集群包含近 400000 个核心,40000 GB RAM,性能为 Rmax=500 TFlop/s 和 Rpeak=1000 TFlop/s,AMD GPU)。
我使用深度学习算法从事图像处理项目。
我的问题是如何使用 slurm 作为工作负载管理器扩展我的 keras 深度学习以在此集群上运行?
最佳答案
使用 Horovod 扩展 Keras 训练 - https://github.com/uber/horovod
关于python - keras(tensorflow 后端)使用 slurm 在集群上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53184153/