python - keras(tensorflow 后端)使用 slurm 在集群上运行

标签 python tensorflow keras cluster-computing slurm

我有机会在带有 slurm 工作负载管理器的集群计算机上运行我的 Tensorflow 训练(该集群包含近 400000 个核心,40000 GB RAM,性能为 Rmax=500 TFlop/s 和 Rpeak=1000 TFlop/s,AMD GPU)。

我使用深度学习算法从事图像处理项目。

我的问题是如何使用 slurm 作为工作负载管理器扩展我的 keras 深度学习以在此集群上运行?

最佳答案

使用 Horovod 扩展 Keras 训练 - https://github.com/uber/horovod

关于python - keras(tensorflow 后端)使用 slurm 在集群上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53184153/

相关文章:

python - Keras多实例分类问题

python - Keras:文本数据上带有 fit_generator() 的分词器

python - 在 vscode 中运行单个文件夹的 pytest 测试

python - 在 django live 应用程序中将 mysql 数据库从 'utf8' 更改为 'utf8mb4' 对数据的影响

opencv - 使用 tensorflow 读取的 OpenCV 图像进行可视化

python - 无法从 'Sequence' 导入名称 'keras.utils'

python - 为 scrapy CrawlSpider 的方法创建单元测试

Python 单元测试和何时模拟

concatenation - 如何在 TensorFlow 中对批处理进行切片并对每个切片应用操作

python - Tensorflow Keras - AttributeError : Layer features has no inbound nodes