r - 变量选择方法

标签 r

我一直在为一个建模问题做变量选择。

我对选择(添加/删除变量)进行了反复试验，错误率有所降低。然而，随着变量数量增长到数百个，我面临着挑战，因为模型需要 1/2 小时来计算，因此无法执行手动变量选择，从而使任务无法完成。

除了 leaps 包中的 regsubsets，你是否碰巧知道任何其他包(当使用相同的试验和错误变量进行测试时产生更高的错误，它不包括一些线性相关的变量 - 排除一些有值(value)的变量).

最佳答案

您需要一种更好(即没有缺陷)的模型选择方法。有很多选择，但应该很容易适应您的情况的一种方法是使用某种形式的正则化，例如套索或弹性网。这些将收缩应用于系数的大小；如果系数从其最小二乘解缩小为零，则该变量将从模型中删除。生成的模型系数略有偏差，但它们的方差低于所选的 OLS 项。

看看 lars , glmnet 和 penalized 包

关于r - 变量选择方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21099840/

相关文章：

r - 在 r 中更好地控制传单弹出窗口