python - 过采样会导致模型过拟合吗？

目前目标属性分布是这样的:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是:

最佳答案

my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.

SMOTE(合成少数过采样技术)正在进入第三步。这是从数据集中创建新的少数类的过程。

SMOTE中的流程如下:

所以，这比单纯的过采样更聪明。

If we use such data to build a classification model, will it not be an overfitted one?

正确答案是可能。尝试一下!

这就是为什么我们使用测试集和交叉验证来尝试了解模型是否适用于未见过的数据!

关于python - 过采样会导致模型过拟合吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52578835/

相关文章：

python - 如何规范 SymPy 中的表达式列表？