r - 特征选择(Boruta)

标签 r machine-learning data-science feature-selection

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 6 年前。

我正在做信用风险建模，数据有大量特征。我正在使用 boruta 包进行特征选择。该包的计算成本太高，我无法在完整的训练数据集上运行它。我想做的是获取训练数据的子集(假设大约 20-30%)，并在该子集数据上运行 boruta 包并获取重要特征。但是当我使用随机森林来训练数据时，我也使用完整的数据集。我的问题是，仅在部分训练数据上选择特征，然后在整个训练数据上构建模型是否正确？

最佳答案

由于这个问题本质上是合乎逻辑的，所以我会给我两分钱。

我相信 20% 的总体随机样本就足够了
更进一步，采用 3-4 个这样的随机集，并将所有这些随机集的重要变量相交，这是对上述方法的改进
使用多种方法中的特征选择(xgboost、一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本，然后采用共同的重要特征

关于r - 特征选择(Boruta)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43757330/

上一篇：python - 最后分层 K 折性能独特

下一篇：machine-learning - keras 中的 model.predict_classes 与 model.predict_generator

相关文章：

machine-learning - 朴素贝叶斯和神经网络的相似点和选择

Python - sklearn 管道 SVC f_regression - 获取列名称

r - 使用 2 个变量的 facet_wrap 更改 strip.text 的颜色

r - 滑动讲座Site : workflow and customizations

R轴不显示

python - 遇到错误 TypeError : can only concatenate tuple (not "list") to tuple

python - seaborn 条形图上的黑线是什么意思？

r - 存在并应用 : why are these functions different?

python - 避免 LSTM 中的过度拟合

python - 如何使用 Google Colab 从 Github 存储库运行 .py 文件？