我有一个模型队列,因为我有2个GPU,所以我只允许并行执行2个模型。
为此,在我的代码开头,我尝试使用 GPUtil
确定哪个GPU可用。可能与之相关,此代码在使用--runtime=nvidia
标志启动的docker容器中运行。
确定运行哪个GPU的代码如下所示:
import os
import GPUtil
gpu1, gpu2 = GPUtil.getGPUs()
available_gpu = gpu1 if gpu1.memoryFree > gpu2.memoryFree else gpu2
os.environ['CUDA_VISIBLE_DEVICES'] = str(available_gpu.id)
import tensorflow as tf
现在,我以这种方式启动了两个脚本(在第一个脚本占用一个GPU之前稍有延迟),但是两个脚本都尝试使用相同的GPU!
我进一步检查了这个问题-我手动设置了
os.environ['CUDA_VISIBLE_DEVICES'] = '1'
并让模型运行。在培训期间,我检查了
nvidia-smi
的输出,并看到了以下内容user@server:~$ docker exec awesome_gpu_container nvidia-smi
Mon Mar 12 06:59:27 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111 Driver Version: 384.111 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 980 Ti Off | 00000000:01:00.0 On | N/A |
| 0% 50C P2 131W / 280W | 5846MiB / 6075MiB | 81% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 1080 Off | 00000000:03:00.0 Off | N/A |
| 0% 39C P8 14W / 200W | 2MiB / 8114MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
而且我注意到,虽然将可见设备设置为
1
,但它实际上在0上运行我再次强调,我的任务是对多个模型进行排队,每个模型开始运行时将自行决定要使用哪个GPU。
我探索了
allow_soft_placement=True
,但是它在两个GPU上都分配了内存,所以我停止了该过程。最重要的是,如何确保我的训练脚本仅使用一个GPU,并让他们选择免费的GPU?
最佳答案
如CUDA programming guide中所述,CUDA使用的默认设备枚举是“最快最快”:
CUDA_DEVICE_ORDER
FASTEST_FIRST, PCI_BUS_ID, (default is FASTEST_FIRST)
FASTEST_FIRST causes CUDA to guess which device is fastest using a simple heuristic, and make that device 0, leaving the order of the rest of the devices unspecified.
PCI_BUS_ID orders devices by PCI bus ID in ascending order.
如果设置
CUDA_DEVICE_ORDER=PCI_BUS_ID
,则CUDA顺序将与nvidia-smi
显示的设备顺序匹配。由于您使用的是docker,因此您还可以在我们的运行时中加强隔离:
docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=0 ...
但这是在容器启动时。
关于docker - 动态决定要在哪个GPU上运行-NVIDIA docker上的TF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49229883/