r - 特征选择(Boruta)

标签 r machine-learning data-science feature-selection

我正在做信用风险建模,数据有大量特征。我正在使用 boruta 包进行特征选择。该包的计算成本太高,我无法在完整的训练数据集上运行它。我想做的是获取训练数据的子集(假设大约 20-30%),并在该子集数据上运行 boruta 包并获取重要特征。但是当我使用随机森林来训练数据时,我也使用完整的数据集。我的问题是,仅在部分训练数据上选择特征,然后在整个训练数据上构建模型是否正确?

最佳答案

由于这个问题本质上是合乎逻辑的,所以我会给我两分钱。

  1. 我相信 20% 的总体随机样本就足够了
  2. 更进一步,采用 3-4 个这样的随机集,并将所有这些随机集的重要变量相交,这是对上述方法的改进
  3. 使用多种方法中的特征选择(xgboost、一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本,然后采用共同的重要特征

关于r - 特征选择(Boruta),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43757330/

相关文章:

machine-learning - 朴素贝叶斯和神经网络的相似点和选择

Python - sklearn 管道 SVC f_regression - 获取列名称

r - 使用 2 个变量的 facet_wrap 更改 strip.text 的颜色

r - 滑动讲座Site : workflow and customizations

R轴不显示

python - 遇到错误 TypeError : can only concatenate tuple (not "list") to tuple

python - seaborn 条形图上的黑线是什么意思?

r - 存在并应用 : why are these functions different?

python - 避免 LSTM 中的过度拟合

python - 如何使用 Google Colab 从 Github 存储库运行 .py 文件?