machine-learning - 有没有办法快速决定使用哪些变量进行模型拟合和选择?

标签 machine-learning model regression

我为一个项目加载了包含 156 个变量的数据集。目标是找出一个模型来预测测试数据集。我很困惑从哪里开始。通常我会从基本的线性回归模型开始,但是有 156 列/变量,应该如何开始模型构建?谢谢!

最佳答案

这里的问题是相当开放式的。

  1. 您需要确认您正在求解回归还是分类。

  2. 您需要对数据集进行一些描述性统计,以找出数据集中的值的类型。是否存在异常值、缺失值、值以十亿计的列与值以小分数计的列。

  3. 如果您有分类数据,您有什么类型的类别。分类值的频率计数是多少。

  4. 相应地清理数据(如果需要)

  5. 发布此内容后,您可能想了解这 156 个变量之间的相关性(通过 PIL 逊或卡方,具体取决于您拥有的变量的数据类型),并了解它们的相关程度。

    <
  6. 在查看相关性后,您可以选择删除某些变量,或者执行 PCA(这有助于保持数据集之间的高方差)并将数据集变量降低到更少的维度。

  7. 然后,您可以首先考虑拟合回归模型或分类模型(取决于您的需要)以获得更简单的模型,然后在提高准确性(或最小化损失)时进行调整

关于machine-learning - 有没有办法快速决定使用哪些变量进行模型拟合和选择?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59525244/

相关文章:

audio - 机器学习数据集的不同麦克风

java - 梯度下降应用于特征向量词袋分类任务

ruby-on-rails - 使用 RSpec 和 Rails 在模型中测试验证

sql - 甲骨文 SQL : standard analytics functions vs modeling clause

r for 循环回归 lm(y~x)

regression - "mean_squared_error"的负值

javascript - Brain.js - 预测接下来的 10 个值

java - JTree与DefaultTreeModel,加载后如何在视觉上刷新?

python - 使用 python numpy 矩阵类的梯度下降

machine-learning - 在 Azure ML 算法选择中预测每件商品的销售额