machine-learning - 如何在机器学习中对不平衡数据进行建模？

标签 machine-learning weka supervised-learning

我使用的数据集具有高度不平衡的数据(Y=5% 和 N=95%)，该数据集有 3000 个唯一记录。为了选择特征，我使用了信息增益。然后应用百分比分割为 66 的随机森林。正确分类的实例 96.1698 % 错误分类的实例 3.8302 %

===混淆矩阵===

a----- b <--分类为

901 11 | a = N

26 28 | b = Y

此外，我尝试过 SMOTE 过滤器，但这并没有改变太多东西(得到非常相似的结果。)我应用 SMOTE 过滤器到 N 和 Y 的实例几乎相等的程度。

数据是否有可能过度拟合？还有比这更好的方法吗？

最佳答案

以我个人的经验来看，不平衡数据可以从数据层面和算法层面来处理。 SMOTE 中发生的情况是算法尝试通过复制或过度采样少数类数据来重新平衡数据，我认为应该谨慎使用，因为存在过度拟合的可能性。您是否通过此链接尝试过海林格距离决策树(HDDT)https://www3.nd.edu/~nchawla/papers/DMKD11.pdf

关于machine-learning - 如何在机器学习中对不平衡数据进行建模？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47401720/

上一篇：pandas - CountVectorizer 方法 get_feature_names() 生成代码，但不生成单词

下一篇：tensorflow - Keras二元分类: same prediction output class

相关文章：

python - Pytorch:获取最终层的正确尺寸

optimization - SVM和神经网络中的成本函数优化有何不同

machine-learning - 一般来说，选择哪种机器学习分类器？

WEKA:这些树叶中 '/' 之后的数字代表什么？

neural-network - 卷积神经网络(CNN)用于音频

tensorflow - 深度学习基本思想

Weka 错误打开 arff 文件

machine-learning - 对偶表示与支持向量有何关系？

machine-learning - 用于大量重复输入的神经网络