machine-learning - 先验分布在分类中重要吗？

目前我遇到了两个类的分类问题。我想做的是，给定一堆候选者，找出谁更有可能成为第 1 类。问题是第 1 类非常罕见(大约 1%)，我想这使得我的预测相当不准确。为了训练数据集，我可以采样一半 1 类和一半 0 类吗？这样会改变先验分布，但不知道先验分布是否影响分类结果？

最佳答案

事实上，非常不平衡的数据集可能会导致分类问题。因为通过默认为多数类 0，您的错误率已经非常低了。

有一些解决方法可能适用于您的特定问题，也可能不适用于您的特定问题，例如对两个类给予相同的权重(从而对稀有类的实例进行更强的加权)、对稀有类进行过采样(即多次学习每个实例) ，产生稀有物体的轻微变化以恢复平衡等。SMOTE等等。

你真的应该找一些分类或机器学习书籍，并检查“不平衡分类”或“不平衡分类”的索引。如果这本书有任何好处，它就会讨论这个问题。 (我只是假设您不知道他们使用的术语。)

关于machine-learning - 先验分布在分类中重要吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13105673/

相关文章：

python - 对来自不同用户的多个响应进行评分