在执行我的 CUDA 程序时,我注意到如果运行两次彼此接近,那么第二次执行要快得多(~100µs vs ~300µs)。这与 CUDA 设备的当前性能状态非常相关。当彼此接近运行时,设备保持在 P2 状态,但经过一段时间后它下降到 P5,然后下降到 P8,导致执行时间变慢。
Graph showing execution time vs performance state
我现在的问题是,我如何最好地避免这种性能下降?是否有我可以使用的设置来阻止 CUDA 设备进入 P5 和 P8?我更喜欢是否可以通过 API 或从命令行应用它。
我查看了节流原因,其中起作用的是 NONE、IDLE 和 UNKNOWN,它们与性能状态、流式多处理器时钟和内存时钟相关。见下图:
Graphs showing other correlations
从图中看有点困难,但它们表明,当系统全速运行时,会报告 throttle 原因 UNKNOWN。当 SM 时钟从 1417 下降到 1240 时,它不会报告任何节流原因。当 SM 时钟下降到 1012 及以下时,它会报告节流原因 IDLE。
我的系统运行的是 Windows Server 2012 R2,CUDA 设备是 TITAN X (Pascal),驱动程序版本为 371.90,在 TCC 模式下运行。我正在运行默认时钟设置,如下所示:
Attached GPUs : 1
GPU 0000:82:00.0
Clocks
Graphics : 139 MHz
SM : 139 MHz
Memory : 405 MHz
Video : 544 MHz
Applications Clocks
Graphics : 1417 MHz
Memory : 5005 MHz
Default Applications Clocks
Graphics : 1417 MHz
Memory : 5005 MHz
Max Clocks
Graphics : 1911 MHz
SM : 1911 MHz
Memory : 5005 MHz
Video : 1708 MHz
SM Clock Samples
Duration : 330.48 sec
Number of Samples : 100
Max : 1417 MHz
Min : 139 MHz
Avg : 598 MHz
Memory Clock Samples
Duration : 330.48 sec
Number of Samples : 100
Max : 4513 MHz
Min : 405 MHz
Avg : 1493 MHz
Clock Policy
Auto Boost : N/A
Auto Boost Default : N/A
最佳答案
我在 API 和 nvidia-smi 中都找不到任何可以让我将性能状态保持在 P2 中的东西,所以我创建了一个空内核,我定期(每 10 秒)调用一次。这是一种hacky 方法,但它确实将性能状态保持在P2 中。
关于cuda - 避免性能状态下降,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46731101/