为什么我们需要在 PyTorch 中显式地将梯度归零?为什么调用 loss.backward()
时梯度不能归零?将梯度保留在图上并要求用户将梯度显式归零可以服务于什么场景?
最佳答案
我们明确需要调用 zero_grad()
因为在 loss.backward()
之后(计算梯度时),我们需要使用 optimizer.step ()
进行梯度下降。更具体地说,梯度不会自动归零,因为这两个操作 loss.backward()
和 optimizer.step()
是分开的,而 optimizer.step ()
需要刚刚计算的梯度。
另外,有时我们需要在一些批处理之间累积梯度;为此,我们可以简单地多次调用 backward
并优化一次。
关于neural-network - 为什么我们需要显式调用 zero_grad()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44732217/