我们应该在多大程度上填充数据集中某个特征的缺失值,以免它变得多余?
我有一个最多包含 42000 个观察值的数据集。有 3 个特征缺少大约 20000、35000 和 7000 个值。我是否仍然应该通过填充这些缺失值来使用它们或转储这三个功能?
给定特征的缺失值数量,我们如何决定保留或转储该特征的阈值?
最佳答案
通常,您可以从数据集中最近的样本中插入缺失值,我喜欢这本关于缺失值的 pandas 手册 http://pandas.pydata.org/pandas-docs/stable/missing_data.html ,它列出了许多可能的技术来从数据集的已知部分插入缺失值。
但就你的情况而言,我认为最好删除这两个第一个特征,因为我怀疑当你有如此大量的缺失值时,是否可以对缺失值进行任何好的插值,几乎超过一半值。
但是您可以尝试修复缺少值的第三个功能。
关于validation - 处理数据集中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32919000/