machine-learning - 特征选择的最佳方法

标签 machine-learning data-science

我有六个以上不同的表，有超过 300 个功能(属性)。现在我对选择模型构建特征的正确方法有点困惑。我想到了两个过程

逐一选择属性并计算其对于输出的重要性并将其添加到数据集市。
获取所有表格中的所有特征，计算它们的相关性和重要性，并删除不太重要的特征。

最佳答案

300 个特征对于您的模型构建过程来说太多了。

您可以使用 xgboost 和随机森林等算法，因为它们具有以下功能寻找特征的重要性。

您可以根据特征重要性对特征进行排序，并删除重要性非常低的特征。这将使您的模型不那么复杂。

关于machine-learning - 特征选择的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54784197/

上一篇：python-3.x - Gridsearchcv 与贝叶斯优化

下一篇：python-3.x - 尽管对目标变量和特征变量进行了标签编码，但创建混淆矩阵时出错

相关文章：

machine-learning - 识别时间序列预测算法

python - 在 Pycaffe 中通过索引访问 blob

python - 测试从头开始构建的神经网络 (XOR)

python - 使用 neupy 的 GRNN

python - 将百分比列添加到数据框

python - 如何使用python从GPS(经度和纬度)时间序列数据中提取速度和加速度特征

machine-learning - Caffe输出层数精度

tensorflow - 不同的输入图像尺寸/分辨率如何影响语义图像分割网络的输出质量？

java - Encog神经网络训练java太慢

data-science - 减小 Facebook FastText Word2Vec 的大小

©2024 IT工具网联系我们