validation - 处理数据集中的缺失值

我们应该在多大程度上填充数据集中某个特征的缺失值，以免它变得多余？

我有一个最多包含 42000 个观察值的数据集。有 3 个特征缺少大约 20000、35000 和 7000 个值。我是否仍然应该通过填充这些缺失值来使用它们或转储这三个功能？

给定特征的缺失值数量，我们如何决定保留或转储该特征的阈值？

最佳答案

通常，您可以从数据集中最近的样本中插入缺失值，我喜欢这本关于缺失值的 pandas 手册 http://pandas.pydata.org/pandas-docs/stable/missing_data.html ，它列出了许多可能的技术来从数据集的已知部分插入缺失值。

但就你的情况而言，我认为最好删除这两个第一个特征，因为我怀疑当你有如此大量的缺失值时，是否可以对缺失值进行任何好的插值，几乎超过一半值。

但是您可以尝试修复缺少值的第三个功能。

关于validation - 处理数据集中的缺失值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32919000/

相关文章：

audio - 如何在Weka中使用MFCC进行音频分类？