python - 文本二元分类训练期间的波动损失

标签 python machine-learning pytorch huggingface-transformers allennlp

我正在对 Longformer 进行微调在 文档文本二元分类任务 使用 Huggingface Trainer class我正在使用 Tensorboard 监控一些检查点的措施。
即使F1分数和准确率相当高,我也对感到困惑。训练损失的波动 .
我在网上阅读的原因可能是:

  • 学习率太高,但我尝试了 3 个值(1e-4、1e-5 和 1e-6),它们都产生了相同的效果
  • 小批量。我正在使用 Sagemaker 笔记本 p2.8xlarge 它有 8xK80 GPU。我可以使用每个 GPU 的批量大小来避免 CUDA 内存不足错误 是 1。所以总批大小是 8 .我的直觉是,对于包含 57K 个示例(每个 epoch 7K 步)的数据集来说,8 的 bs 太小了。不幸的是,这是我可以使用的最高值。

  • 这里我已经报告了 F1、准确率、损失和平滑损失的趋势。灰线是 1e-6 的学习率,而粉红色的是 1e-5。




    我恢复所有信息 我的培训:
  • 批量大小 :1 x 8GPU = 8
  • 学习率 : 1e-4 , 1e-5 , 1e-6 (所有测试都没有损失改善)
  • 型号 : Longformer
  • 数据集 :
  • 训练集: 57K 示例
  • 开发集: 12K 示例
  • 测试集: 12K 示例


  • 这可能是什么原因?尽管 F1 和准确度结果相当不错,但这可以被视为问题吗?

    最佳答案

    我会先告诉你波动的原因,然后告诉你一个可能的解决方法。
    原因
    当你训练一个网络时,你会计算一个可以减少损失的梯度。为此,您需要反向传播损失。现在,理想情况下,您可以根据数据中的所有样本计算损失,因为这样您基本上会考虑每个样本,并提出一个可以捕获所有样本的梯度。实际上,由于计算所有样本的梯度的计算复杂性,这是不可能的。
    因此,我们使用 small batch_size 作为近似值!这个想法不是考虑所有样本,我们说我基于一些小样本集计算梯度,但作为权衡,我丢失了有关梯度的信息。
    经验法则:较小的批次大小会产生嘈杂的梯度,但它们会更快地收敛,因为每个 epoch 都有更多的更新。如果您的批量大小为 1,您将在每个 epoch 中进行 N 次更新。如果是 N,则每个 epoch 将只有 1 次更新。另一方面,较大的批次大小会提供更多信息梯度,但它们收敛速度较慢并增加计算复杂度。
    这就是为什么对于较小的批次大小,您会观察到不同的损失/波动,因为梯度是嘈杂的。
    解决方案:累积梯度
    如果出现内存问题,可以使用 的概念。累积梯度 以应对波动的损失。它在每个小批量之后计算损失和梯度,但不是更新每个批次的权重,而是等待并累积连续批次的梯度。然后最终根据指定批次数后的累积梯度更新参数。
    在文档的此页面上,您可以找到如何应用它:https://huggingface.co/transformers/v1.2.0/examples.html

    关于python - 文本二元分类训练期间的波动损失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63743557/

    相关文章:

    python - 将 Torch 2D 张量 ("Tiles") 重新排列为特定顺序

    python - 使用一种方法的文档字符串自动覆盖另一种方法的文档字符串

    tensorflow - 相当于 PyTorch 中的 tf.linalg.diag_part

    python - 如何训练以行号为特征的 spaCy 模型?

    python - 使用 ffmpeg 或 Python 从视频中删除随机背景

    matlab - 数据分类:sizes of training and test vectors

    machine-learning - 多输出神经网络

    python - PyTorch - 如何在训练期间获得学习率?

    Python/Pyspark - 计算 NULL、空和 NaN

    python - 采用跳跃洪泛算法的 Voronoi 图 : performance issue