machine-learning - 特征选择的最佳方法

标签 machine-learning data-science

我有六个以上不同的表,有超过 300 个功能(属性)。现在我对选择模型构建特征的正确方法有点困惑。我想到了两个过程

  1. 逐一选择属性并计算其对于输出的重要性并将其添加到数据集市。
  2. 获取所有表格中的所有特征,计算它们的相关性和重要性,并删除不太重要的特征。

最佳答案

300 个特征对于您的模型构建过程来说太多了。

您可以使用 xgboost 和随机森林等算法,因为它们具有以下功能 寻找特征的重要性。

您可以根据特征重要性对特征进行排序,并删除重要性非常低的特征。这将使您的模型不那么复杂。

关于machine-learning - 特征选择的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54784197/

相关文章:

machine-learning - 识别时间序列预测算法

python - 在 Pycaffe 中通过索引访问 blob

python - 测试从头开始构建的神经网络 (XOR)

python - 使用 neupy 的 GRNN

python - 将百分比列添加到数据框

python - 如何使用python从GPS(经度和纬度)时间序列数据中提取速度和加速度特征

machine-learning - Caffe输出层数精度

tensorflow - 不同的输入图像尺寸/分辨率如何影响语义图像分割网络的输出质量?

java - Encog神经网络训练java太慢

data-science - 减小 Facebook FastText Word2Vec 的大小