neural-network - 为什么我们需要显式调用 zero_grad()？

标签 neural-network deep-learning pytorch gradient-descent

为什么我们需要在 PyTorch 中显式地将梯度归零？为什么调用 loss.backward() 时梯度不能归零？将梯度保留在图上并要求用户将梯度显式归零可以服务于什么场景？

最佳答案

我们明确需要调用 zero_grad() 因为在 loss.backward() 之后(计算梯度时)，我们需要使用 optimizer.step () 进行梯度下降。更具体地说，梯度不会自动归零，因为这两个操作 loss.backward() 和 optimizer.step() 是分开的，而 optimizer.step () 需要刚刚计算的梯度。

另外，有时我们需要在一些批处理之间累积梯度；为此，我们可以简单地多次调用 backward 并优化一次。

关于neural-network - 为什么我们需要显式调用 zero_grad()？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44732217/

上一篇：python - 如何设置误差线上限的线宽

下一篇：python - 如何从 Python 中填写的表单中提取 PDF 字段？

machine-learning - caffe LayerSetUp 和 Reshape？

python - keras 模型中损失函数的奇怪行为，具有预训练的卷积基

python - 在 Pytorch 中对张量 [batch, channel, sequence, H,W] 运行 conv2d

python - Tensorflow 优化器 - 多个损失值传递给最小化()？

artificial-intelligence - 如何将人工神经网络的输出转换为概率？

python - 训练神经网络时损失值为0

python - 不同模型的训练精度不同，但测试精度相同

pytorch - 使用 _ConvNd 对模块进行 Torchscripting

deep-learning - 为拥抱脸 (HF) ViT 模型创建特征提取器的正确方法是什么？