我正在做信用风险建模,数据有大量特征。我正在使用 boruta 包进行特征选择。该包的计算成本太高,我无法在完整的训练数据集上运行它。我想做的是获取训练数据的子集(假设大约 20-30%),并在该子集数据上运行 boruta 包并获取重要特征。但是当我使用随机森林来训练数据时,我也使用完整的数据集。我的问题是,仅在部分训练数据上选择特征,然后在整个训练数据上构建模型是否正确?
最佳答案
由于这个问题本质上是合乎逻辑的,所以我会给我两分钱。
- 我相信 20% 的总体随机样本就足够了
- 更进一步,采用 3-4 个这样的随机集,并将所有这些随机集的重要变量相交,这是对上述方法的改进
- 使用多种方法中的特征选择(xgboost、一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本,然后采用共同的重要特征
关于r - 特征选择(Boruta),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43757330/