r - 是否有可以使用连续和分类特征进行 SMOTE 的包或函数?

标签 r classification resampling oversampling

我有一个不平衡的数据集,其中包含一个分类因变量和连续且分类的特征变量。我知道 DMwR 包中的 SMOTE 函数只能处理连续的特征。是否有可以像 Chawla 描述的那样处理分类和连续特征的包 in his paper

最佳答案

您可以在 R 中处理!

是的,smotefamily::SMOTE 和 DMwR::SMOTE 都只能处理数字特征,因为底层算法是 k-最近邻。

因此:

  1. 将所有分类变量转换为数据类型factor

  2. 通过最近的软件包tidymodels::embed

    计算每个因素水平的数值估计值

tidymodels::embed 包提供了三种方法来执行第 2 步:

  • step_lencode_glm
  • step_lencode_bayes
  • step_lencode_mixed

documentation说这些方法 估计每个因素水平对结果的影响,并将这些估计用作新编码。

关于r - 是否有可以使用连续和分类特征进行 SMOTE 的包或函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55339450/

相关文章:

r - 将结果 R 数据框导出到 Excel 文件中

python - Scikit-Learn 决策树 : Probability of prediction being a or b?

python - 使用python处理音频流(重采样)

python - 高效的 numpy 零阶保持

r - 使用 actionButtons 根据索引动态添加和删除 uiOutput 元素

r - 如何过滤R中的列表

r - 如何从图中删除顶点并在其邻居之间创建边?

python - 为什么我的 CatBoost 拟合指标与 sklearn 评估指标不同?

python - 如何为 ML 模型正确设置种子值?