performance - Tensorflow:如何在模型训练过程中实时监控 GPU 性能？

我是 Ubuntu 和 GPU 新手，最近在我们的实验室中使用了一台配备 Ubuntu 16.04 和 4 个 NVIDIA 1080ti GPU 的新 PC。该机还拥有i7 16核处理器。

我有一些基本问题:

已为 GPU 安装 Tensorflow。我猜想，它会自动优先考虑 GPU 使用吗？如果是这样，它会同时使用所有 4 个，还是使用 1 个，然后在需要时招募另一个？
我可以在模型训练期间实时监控 GPU 使用/事件吗？

我完全理解这是基本的硬件内容，但对这些具体问题的明确明确的答案会很棒。

编辑:

基于此输出 - 这真的是说我的每个 GPU 上的几乎所有内存都已被使用吗？

最佳答案

Tensorflow 不会自动利用所有 GPU，它只会使用一个 GPU，特别是第一个 GPU /gpu:0

您必须编写多 GPU 代码才能利用所有可用的 GPU。 cifar mutli-gpu example
每 0.1 秒检查一次使用情况

观看-n0.1 nvidia-smi

关于performance - Tensorflow:如何在模型训练过程中实时监控 GPU 性能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45544603/