neural-network - 为什么我们需要显式调用 zero_grad()?

标签 neural-network deep-learning pytorch gradient-descent

为什么我们需要在 PyTorch 中显式地将梯度归零?为什么调用 loss.backward() 时梯度不能归零?将梯度保留在图上并要求用户将梯度显式归零可以服务于什么场景?

最佳答案

我们明确需要调用 zero_grad() 因为在 loss.backward() 之后(计算梯度时),我们需要使用 optimizer.step () 进行梯度下降。更具体地说,梯度不会自动归零,因为这两个操作 loss.backward()optimizer.step() 是分开的,而 optimizer.step () 需要刚刚计算的梯度。

另外,有时我们需要在一些批处理之间累积梯度;为此,我们可以简单地多次调用 backward 并优化一次。

关于neural-network - 为什么我们需要显式调用 zero_grad()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44732217/

相关文章:

python - Keras 和 Python 3.6 : Error when checking input for Sequential model

machine-learning - caffe LayerSetUp 和 Reshape?

python - keras 模型中损失函数的奇怪行为,具有预训练的卷积基

python - 在 Pytorch 中对张量 [batch, channel, sequence, H,W] 运行 conv2d

python - Tensorflow 优化器 - 多个损失值传递给最小化()?

artificial-intelligence - 如何将人工神经网络的输出转换为概率?

python - 训练神经网络时损失值为0

python - 不同模型的训练精度不同,但测试精度相同

pytorch - 使用 _ConvNd 对模块进行 Torchscripting

deep-learning - 为拥抱脸 (HF) ViT 模型创建特征提取器的正确方法是什么?