r - 大数据中的插补

标签 r imputation

我需要估算缺失值。我的数据集有大约 800,000 行和 92 个变量。我在 r 的插补包中尝试了 kNNImpute,但看起来数据集太大了。 R 中的任何其他包/方法?我宁愿不使用均值来替换缺失值。 谢谢

最佳答案

1) 你可以试试

library(sos)
findFn("impute")

这显示了 113 个包中的 400 个匹配项。这显示了 113 个包中的 400 个匹配项:您可以根据插补函数的要求缩小范围。

2) 你看到/试过了吗Hmisc

Description: The Hmisc library contains many functions useful for data analysis, high-level graphics, utility operations, functions for computing sample size and power, importing datasets, imputing missing values, advanced table making, variable clustering, character string manipulation, conversion of S objects to LaTeX code, and recoding variables.

3) 可能 mice

Multiple imputation using Fully Conditional Specification (FCS) implemented by the MICE algorithm. Each variable has its own imputation model. Built-in imputation models are provided for continuous data (predictive mean matching, normal), binary data (logistic regression), unordered categorical data (polytomous logistic regression) and ordered categorical data (proportional odds). MICE can also impute continuous two-level data (normal model, pan, second-level variables). Passive imputation can be used to maintain consistency between variables. Various diagnostic plots are available to inspect the quality of the imputations.

关于r - 大数据中的插补,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17214560/

相关文章:

python - 运行一个 shell 脚本,该脚本运行一个 python 程序,然后运行一个 R 程序

Python 机器学习 - 输入分类数据?

r - 检查列表中的值是否存在于多列 R data.table 中

r - 将函数应用于相同大小的连续子向量

r - 小鼠 : partial imputation using where argument failing

r - 如何用 mice R 仅估算一列或几列

python - 为什么在数据帧上具有中位数的 fillna 仍然在 pandas 中留下 Na/NaN?

r - 用大数据估算列平均值的最快方法

r - R中散点图标准差的计算

r - 使用 sparklyr 将列数据类型更改为因子