machine-learning - 先验分布在分类中重要吗?

标签 machine-learning classification

目前我遇到了两个类的分类问题。我想做的是,给定一堆候选者,找出谁更有可能成为第 1 类。问题是第 1 类非常罕见(大约 1%),我想这使得我的预测相当不准确。 为了训练数据集,我可以采样一半 1 类和一半 0 类吗?这样会改变先验分布,但不知道先验分布是否影响分类结果?

最佳答案

事实上,非常不平衡的数据集可能会导致分类问题。因为通过默认为多数类 0,您的错误率已经非常低了。

有一些解决方法可能适用于您的特定问题,也可能不适用于您的特定问题,例如对两个类给予相同的权重(从而对稀有类的实例进行更强的加权)、对稀有类进行过采样(即多次学习每个实例) ,产生稀有物体的轻微变化以恢复平衡等。SMOTE等等。

你真的应该找一些分类或机器学习书籍,并检查“不平衡分类”或“不平衡分类”的索引。如果这本书有任何好处,它就会讨论这个问题。 (我只是假设您不知道他们使用的术语。)

关于machine-learning - 先验分布在分类中重要吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13105673/

相关文章:

python - 对来自不同用户的多个响应进行评分

python-3.x - 在 Tensorflow 中添加第二个隐藏层会破坏损失计算

python - 如何在 sklearn 中对不平衡数据集进行交叉验证

machine-learning - LDA 文本分类的良好训练数据?

r - 如何在 R 中的二进制 h2o GBM 中获得每个类的不同变量重要性?

matlab - 使用 matlab 进行一维高斯贝叶斯分类

python - 在列表字典上使用 TfidfVectorizer

android - TensorFlow 重新训练的 inception v3 模型在 Android 上崩溃

tensorflow - 如何在tensorflow中初始化pb文件的变量而不附带ckpt文件?

r - kmeans 分类到预定的质心