python - 过采样会导致模型过拟合吗?

标签 python model classification oversampling

目前目标属性分布是这样的:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是:

  • 过采样方法,如:manully、smote、adasyn 将使用可用数据来创建新的数据点?

  • 如果用这样的数据来训练分类模型,会不会出现过拟合?

最佳答案

my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.

  • 数据不平衡问题主要分三个步骤处理:
    1. 对少数群体进行过度抽样。
    2. 对多数类进行抽样不足。
    3. 综合新的少数类别。

SMOTE(合成少数过采样技术)正在进入第三步。这是从数据集中创建新的少数类的过程。

SMOTE中的流程如下:

enter image description here

所以,这比单纯的过采样更聪明

If we use such data to build a classification model, will it not be an overfitted one?

正确答案是可能。尝试一下!

这就是为什么我们使用测试集交叉验证来尝试了解模型是否适用于未见过的数据!

关于python - 过采样会导致模型过拟合吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52578835/

相关文章:

python - 如何规范 SymPy 中的表达式列表?

Ghost.py 的 Python 奇怪问题

Delphi: View <-> 模型同步的良好模式/策略

java - 如何使用 eclipselink jpa 验证模型

opencv - 使用 SVM 进行实时面部表情分类

python - 如何找到不在列表中的非空项的索引?

python - 在 Python 中实现可观察集合的推荐方法?

json - A 框架动画混合器。如何在 json 模型动画剪辑之间平滑过渡?

python - 为什么单层感知器在没有归一化的情况下收敛如此之慢,即使边距很大?

tensorflow - tensorflow 中的简单 softmax 分类器