r - 计算大型数据集的多个固定效应

标签 r regression fixed effects ff

我正在尝试对包含超过 4000000 行的 CSV 数据集中的两个因子变量执行固定效应回归。这些变量可以分别假设大约140000和50000个不同的整数值。

我最初尝试在具有 8 Gb 内存的 Linux 机器上使用 R 的 biglm 和 ff 软件包执行回归,如下所示;然而,这似乎需要太多内存,因为 R 提示必须分配一个大小大于我的机器上的最大值的向量。

library(biglm)
library(ff)
d <- read.csv.ffdf(file='data.csv', header=TRUE)
model = y~factor(a)+factor(b)-1
out <- biglm(model, data=d)

网上的一些研究表明,由于因子是由 ff 加载到内存中的,因此如果存在许多因子值,后者不会显着提高内存使用率。

有人知道有其他方法可以对我描述的规模的数据集执行上述回归,而不必求助于具有更多内存的机器吗?

最佳答案

您应该尝试 lfe 包,它正是为此目的而设计的:

library(lfe)
...
out <- felm(y ~ 0|a+b, data=d)
fe <- getfe(out)

可以在此处找到该方法的证明:http://www.sciencedirect.com/science/article/pii/S0167947313001266

这是一篇关于它的 R 期刊文章:http://journal.r-project.org/archive/2013-2/gaure.pdf

关于r - 计算大型数据集的多个固定效应,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21717089/

相关文章:

r - 在循环中分配一个函数

python - 如何根据目标变量的预测使用 Seaborn 绘制线性回归?

python - 训练岭回归的 alpha 值

javascript - 我的侧面菜单栏中的问题已修复并且内容可以滚动

css - 移动设备上 "fixed"元素的视口(viewport)宽度问题

r - 带有 cbind 和只有一列的自动列前缀

r - 将 x 轴限制为当前星期

r - R 中的 H2O 错误 - 无法连接到本地主机

python - 具有非正则化截距项的 Scikit-learn Ridge 回归

css - 过渡期间闪烁的固定背景