我为一个项目加载了包含 156 个变量的数据集。目标是找出一个模型来预测测试数据集。我很困惑从哪里开始。通常我会从基本的线性回归模型开始,但是有 156 列/变量,应该如何开始模型构建?谢谢!
最佳答案
这里的问题是相当开放式的。
您需要确认您正在求解回归还是分类。
您需要对数据集进行一些描述性统计,以找出数据集中的值的类型。是否存在异常值、缺失值、值以十亿计的列与值以小分数计的列。
如果您有分类数据,您有什么类型的类别。分类值的频率计数是多少。
相应地清理数据(如果需要)
发布此内容后,您可能想了解这 156 个变量之间的相关性(通过 PIL 逊或卡方,具体取决于您拥有的变量的数据类型),并了解它们的相关程度。
<在查看相关性后,您可以选择删除某些变量,或者执行 PCA(这有助于保持数据集之间的高方差)并将数据集变量降低到更少的维度。
然后,您可以首先考虑拟合回归模型或分类模型(取决于您的需要)以获得更简单的模型,然后在提高准确性(或最小化损失)时进行调整
关于machine-learning - 有没有办法快速决定使用哪些变量进行模型拟合和选择?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59525244/