r - 多重插补数据集的 MICE 数量。

关于多重插补数据集“m”的数量的效用，我有多个问题。我的理解是，小鼠会重复数据集中缺失值的插补过程 m 次。

1)小鼠是否考虑了前一步的插补，因此每一步都接近最终收敛，还是每一步完全相互独立？

2)如果每个步骤彼此独立，那么出于插补目的而拥有多个插补数据集有何意义？

在解释小鼠的论文中，有一个显示多个插补步骤的方案

我认为，当我们想要汇集结果时，我们拥有的估算数据集越多，效果越好，但是分析结果步骤意味着创建一个预测模型，该模型可能是:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

如果我的数据集中没有任何预测列或标签，会发生什么情况？事实上，我的数据集包含基因组学测量结果，并且它们都是独立的。如何汇集结果，或合并 m 个估算数据集，而无需执行预测步骤？

最好，

巴巴斯

最佳答案

你有这些问题真是太好了。多重插补经常被误解。它更像是一个关于如何对缺失数据进行分析的完整概念，而不是一种只为您提供一个没有缺失值的数据集的算法。

1)小鼠是否考虑了前一步的插补，因此每一步都接近最终收敛，还是每一步完全相互独立？

不，没有收敛。 m 个估算数据集都没有“更好”的估算值。

2)如果每个步骤彼此独立，那么出于插补目的而拥有多个插补数据集有何意义？

重点是对插补过程的不确定性进行建模。如果在一个估算数据集中将 NA 值替换为例如只是 5 这绝不是全部事实...更准确的说法可能是这样的:该值可能在 4 到 6 之间...

鲁宾的这篇论文读起来很有趣:https://www.jstor.org/stable/2291635

关于r - 多重插补数据集的 MICE 数量。，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50351736/