我一直在为一个建模问题做变量选择。
我对选择(添加/删除变量)进行了反复试验,错误率有所降低。然而,随着变量数量增长到数百个,我面临着挑战,因为模型需要 1/2 小时来计算,因此无法执行手动变量选择,从而使任务无法完成。
除了 leaps 包中的 regsubsets,你是否碰巧知道任何其他包(当使用相同的试验和错误变量进行测试时产生更高的错误,它不包括一些线性相关的变量 - 排除一些有值(value)的变量).
最佳答案
您需要一种更好(即没有缺陷)的模型选择方法。有很多选择,但应该很容易适应您的情况的一种方法是使用某种形式的正则化,例如套索或弹性网。这些将收缩应用于系数的大小;如果系数从其最小二乘解缩小为零,则该变量将从模型中删除。生成的模型系数略有偏差,但它们的方差低于所选的 OLS 项。
关于r - 变量选择方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21099840/