performance - Tensorflow:如何在模型训练过程中实时监控 GPU 性能?

标签 performance tensorflow gpu

我是 Ubuntu 和 GPU 新手,最近在我们的实验室中使用了一台配备 Ubuntu 16.04 和 4 个 NVIDIA 1080ti GPU 的新 PC。该机还拥有i7 16核处理器。

我有一些基本问题:

  1. 已为 GPU 安装 Tensorflow。我猜想,它会自动优先考虑 GPU 使用吗?如果是这样,它会同时使用所有 4 个,还是使用 1 个,然后在需要时招募另一个?

  2. 我可以在模型训练期间实时监控 GPU 使用/事件吗?

我完全理解这是基本的硬件内容,但对这些具体问题的明确明确的答案会很棒。

编辑:

基于此输出 - 这真的是说我的每个 GPU 上的几乎所有内存都已被使用吗?

enter image description here

最佳答案

  1. Tensorflow 不会自动利用所有 GPU,它只会使用一个 GPU,特别是第一个 GPU /gpu:0

    您必须编写多 GPU 代码才能利用所有可用的 GPU。 cifar mutli-gpu example

  2. 每 0.1 秒检查一次使用情况

    观看-n0.1 nvidia-smi

关于performance - Tensorflow:如何在模型训练过程中实时监控 GPU 性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45544603/

相关文章:

opencv - 如何解决 OS X 中 CUDA 代码的 GPU 看门狗计时器限制

c++ - 如何快速混合 RGBA 无符号字节颜色?

c++ - 有效地检查 map c++中是否存在元素

performance - 更改 Julia DEPOT_PATH 时包加载时间会急剧增加

python - @tf.function ValueError : Creating variables on a non-first call to a function decorated with tf. 函数,无法理解行为

python - tensorflow 二维直方图

docker - kubernetes 调度昂贵的资源

ubuntu - 使用 vmware 的 GPU 直通

performance - 函数式编程中的国际象棋编程

Tensorflow 使用 Kubernetes 为 OOMKilled 或 Evicted pod 提供服务