我有一个不平衡的数据集,其中包含一个分类因变量和连续且分类的特征变量。我知道 DMwR 包中的 SMOTE 函数只能处理连续的特征。是否有可以像 Chawla 描述的那样处理分类和连续特征的包 in his paper ?
最佳答案
您可以在 R 中处理!
是的,smotefamily::SMOTE 和 DMwR::SMOTE 都只能处理数字特征,因为底层算法是 k-最近邻。
因此:
将所有分类变量转换为数据类型
factor
。通过最近的软件包
计算每个因素水平的数值估计值tidymodels::embed
tidymodels::embed
包提供了三种方法来执行第 2 步:
- step_lencode_glm
- step_lencode_bayes
- step_lencode_mixed
documentation说这些方法
估计每个因素水平对结果的影响,并将这些估计用作新编码。
关于r - 是否有可以使用连续和分类特征进行 SMOTE 的包或函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55339450/