目前目标属性分布是这样的:
mydata.groupBy("Churn").count().show()
+-----+-----+
|Churn|count|
+-----+-----+
| 1| 483|
| 0| 2850|
+-----+-----+
我的问题是:
过采样方法,如:manully、smote、adasyn 将使用可用数据来创建新的数据点?
如果用这样的数据来训练分类模型,会不会出现过拟合?
最佳答案
my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.
- 数据不平衡问题主要分三个步骤处理:
- 对少数群体进行过度抽样。
- 对多数类进行抽样不足。
- 综合新的少数类别。
SMOTE(合成少数过采样技术)正在进入第三步。这是从数据集中创建新的少数类的过程。
SMOTE中的流程如下:
所以,这比单纯的过采样更聪明。
If we use such data to build a classification model, will it not be an overfitted one?
正确答案是可能。尝试一下!
这就是为什么我们使用测试集和交叉验证来尝试了解模型是否适用于未见过的数据!
关于python - 过采样会导致模型过拟合吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52578835/