关于多重插补数据集“m”的数量的效用,我有多个问题。我的理解是,小鼠会重复数据集中缺失值的插补过程 m 次。
1)小鼠是否考虑了前一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?
2)如果每个步骤彼此独立,那么出于插补目的而拥有多个插补数据集有何意义?
我认为,当我们想要汇集结果时,我们拥有的估算数据集越多,效果越好,但是分析结果步骤意味着创建一个预测模型,该模型可能是:
#build predictive model
fit <- with(data = imp, lm(y ~ x + z))
如果我的数据集中没有任何预测列或标签,会发生什么情况?事实上,我的数据集包含基因组学测量结果,并且它们都是独立的。如何汇集结果,或合并 m 个估算数据集,而无需执行预测步骤?
最好,
巴巴斯
最佳答案
你有这些问题真是太好了。多重插补经常被误解。它更像是一个关于如何对缺失数据进行分析的完整概念,而不是一种只为您提供一个没有缺失值的数据集的算法。
1)小鼠是否考虑了前一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?
不,没有收敛。 m 个估算数据集都没有“更好”的估算值。
2)如果每个步骤彼此独立,那么出于插补目的而拥有多个插补数据集有何意义?
重点是对插补过程的不确定性进行建模。如果在一个估算数据集中将 NA 值替换为例如只是 5 这绝不是全部事实...更准确的说法可能是这样的:该值可能在 4 到 6 之间...
鲁宾的这篇论文读起来很有趣:https://www.jstor.org/stable/2291635
关于r - 多重插补数据集的 MICE 数量。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50351736/