r - 多重插补数据集的 MICE 数量。

标签 r missing-data r-mice

关于多重插补数据集“m”的数量的效用,我有多个问题。我的理解是,小鼠会重复数据集中缺失值的插补过程 m 次。

1)小鼠是否考虑了前一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?

2)如果每个步骤彼此独立,那么出于插补目的而拥有多个插补数据集有何意义?

在解释小鼠的论文中,有一个显示多个插补步骤的方案 enter image description here

我认为,当我们想要汇集结果时,我们拥有的估算数据集越多,效果越好,但是分析结果步骤意味着创建一个预测模型,该模型可能是:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

如果我的数据集中没有任何预测列或标签,会发生什么情况?事实上,我的数据集包含基因组学测量结果,并且它们都是独立的。如何汇集结果,或合并 m 个估算数据集,而无需执行预测步骤?

最好,

巴巴斯

最佳答案

你有这些问题真是太好了。多重插补经常被误解。它更像是一个关于如何对缺失数据进行分析的完整概念,而不是一种只为您提供一个没有缺失值的数据集的算法。

1)小鼠是否考虑了前一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?

不,没有收敛。 m 个估算数据集都没有“更好”的估算值。

2)如果每个步骤彼此独立,那么出于插补目的而拥有多个插补数据集有何意义?

重点是对插补过程的不确定性进行建模。如果在一个估算数据集中将 NA 值替换为例如只是 5 这绝不是全部事实...更准确的说法可能是这样的:该值可能在 4 到 6 之间...

鲁宾的这篇论文读起来很有趣:https://www.jstor.org/stable/2291635

关于r - 多重插补数据集的 MICE 数量。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50351736/

相关文章:

r - 如何在 R 中打开 .pre 文件?

r - 为每对二进制变量创建一个单元格计数最低的矩阵

python - 我如何在 Pandas 中其他两个单元格相等的情况下转发 na?

r - gtsummary::tbl_regression 使用 pool_and_tidy_mice() 和 tidy_standardize()

r - 具有估算数据的多项式回归

r - 一旦它们的依赖项可用,如何动态加载 Shiny 的输出?

r - 在 R 中将 data.frame 转换为时间序列对象时遇到困难?

r - 如何在 R 中正确绘制 ICE?

python - 替换缺失值和不稳定值,Pythons

r - 比较嵌套小鼠模型与交互项