r - 变量选择方法

标签 r

我一直在为一个建模问题做变量选择。

我对选择(添加/删除变量)进行了反复试验,错误率有所降低。然而,随着变量数量增长到数百个,我面临着挑战,因为模型需要 1/2 小时来计算,因此无法执行手动变量选择,从而使任务无法完成。

除了 leaps 包中的 regsubsets,你是否碰巧知道任何其他包(当使用相同的试验和错误变量进行测试时产生更高的错误,它不包括一些线性相关的变量 - 排除一些有值(value)的变量).

最佳答案

您需要一种更好(即没有缺陷)的模型选择方法。有很多选择,但应该很容易适应您的情况的一种方法是使用某种形式的正则化,例如套索或弹性网。这些将收缩应用于系数的大小;如果系数从其最小二乘解缩小为零,则该变量将从模型中删除。生成的模型系数略有偏差,但它们的方差低于所选的 OLS 项。

看看 lars , glmnet penalized

关于r - 变量选择方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21099840/

相关文章:

r - 在 r 中更好地控制传单弹出窗口

r - 使用 mutate_if 和 force_tz 更改所有时间戳的时区

R:XLConnect 不传递变量名称

r - 当给 mfinal>10 时,adabag boosting 函数会抛出错误

r - 将 nrow 和 ncol 显式提供给 `as.matrix` 不会创建维度

r - 关于使用 vars() 引用代码的整洁评估问题

r - 为什么有些逻辑运算符这么慢?

r - 您如何创建 50 个州的 map (而不仅仅是低 48 个)

javascript - RCharts - 按类别柱形图选择颜色

r - 是否可以从 arial 更改 flextable 默认字体