我有六个以上不同的表,有超过 300 个功能(属性)。现在我对选择模型构建特征的正确方法有点困惑。我想到了两个过程
- 逐一选择属性并计算其对于输出的重要性并将其添加到数据集市。
- 获取所有表格中的所有特征,计算它们的相关性和重要性,并删除不太重要的特征。
最佳答案
300 个特征对于您的模型构建过程来说太多了。
您可以使用 xgboost 和随机森林等算法,因为它们具有以下功能 寻找特征的重要性。
您可以根据特征重要性对特征进行排序,并删除重要性非常低的特征。这将使您的模型不那么复杂。
关于machine-learning - 特征选择的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54784197/