machine-learning - 有没有办法快速决定使用哪些变量进行模型拟合和选择？

标签 machine-learning model regression

我为一个项目加载了包含 156 个变量的数据集。目标是找出一个模型来预测测试数据集。我很困惑从哪里开始。通常我会从基本的线性回归模型开始，但是有 156 列/变量，应该如何开始模型构建？谢谢!

最佳答案

这里的问题是相当开放式的。

您需要确认您正在求解回归还是分类。
您需要对数据集进行一些描述性统计，以找出数据集中的值的类型。是否存在异常值、缺失值、值以十亿计的列与值以小分数计的列。
如果您有分类数据，您有什么类型的类别。分类值的频率计数是多少。
相应地清理数据(如果需要)
发布此内容后，您可能想了解这 156 个变量之间的相关性(通过 PIL 逊或卡方，具体取决于您拥有的变量的数据类型)，并了解它们的相关程度。
<
在查看相关性后，您可以选择删除某些变量，或者执行 PCA(这有助于保持数据集之间的高方差)并将数据集变量降低到更少的维度。
然后，您可以首先考虑拟合回归模型或分类模型(取决于您的需要)以获得更简单的模型，然后在提高准确性(或最小化损失)时进行调整

关于machine-learning - 有没有办法快速决定使用哪些变量进行模型拟合和选择？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59525244/

上一篇：machine-learning - 聊天机器人的文本分类

下一篇：machine-learning - 为什么我们在 train_test_split 的两个数组中都包含目标类？

相关文章：

audio - 机器学习数据集的不同麦克风

java - 梯度下降应用于特征向量词袋分类任务

ruby-on-rails - 使用 RSpec 和 Rails 在模型中测试验证

sql - 甲骨文 SQL : standard analytics functions vs modeling clause

r for 循环回归 lm(y~x)

regression - "mean_squared_error"的负值

javascript - Brain.js - 预测接下来的 10 个值

java - JTree与DefaultTreeModel，加载后如何在视觉上刷新？

python - 使用 python numpy 矩阵类的梯度下降

machine-learning - 在 Azure ML 算法选择中预测每件商品的销售额

©2024 IT工具网联系我们