我需要在具有正态分布的数据上训练我的网络,我注意到我的神经网络非常倾向于仅预测我导出的 csv 文件中最常出现的类标签(将其预测与实际标签)。
有哪些建议(除了清理数据以生成均匀分布的训练数据)可以帮助我的神经网络不去预测最常出现的标签?
更新:只是想提一下,评论部分中提出的建议确实有效。然而,我发现在我的神经网络中添加一个额外的层可以缓解这个问题。
最佳答案
假设使用小批量训练神经网络,可以通过确保每个小批量均匀分布来模拟(而不是生成)均匀分布的训练数据。
例如,假设 3 类分类问题且小批量大小=30,通过为每个类随机选择 10 个样本(如有必要,可重复)来构建每个小批量。
关于python - 如何取消我的训练数据分布对后续神经网络分类功能带来的巨大负面影响?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36380696/