validation - 处理数据集中的缺失值

标签 validation machine-learning dataset data-analysis

我们应该在多大程度上填充数据集中某个特征的缺失值,以免它变得多余?

我有一个最多包含 42000 个观察值的数据集。有 3 个特征缺少大约 20000、35000 和 7000 个值。我是否仍然应该通过填充这些缺失值来使用它们或转储这三个功能?

给定特征的缺失值数量,我们如何决定保留或转储该特征的阈值?

最佳答案

通常,您可以从数据集中最近的样本中插入缺失值,我喜欢这本关于缺失值的 pandas 手册 http://pandas.pydata.org/pandas-docs/stable/missing_data.html ,它列出了许多可能的技术来从数据集的已知部分插入缺失值。

但就你的情况而言,我认为最好删除这两个第一个特征,因为我怀疑当你有如此大量的缺失值时,是否可以对缺失值进行任何好的插值,几乎超过一半值。

但是您可以尝试修复缺少值的第三个功能。

关于validation - 处理数据集中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32919000/

相关文章:

audio - 如何在Weka中使用MFCC进行音频分类?

java - 在 BIRT Designer 中禁用与数据源的连接

twitter-bootstrap - BootstrapValidator,验证动态添加到表单的字段

machine-learning - Azure 机器学习中的随机种子是什么?

python - 有条件地只需要 Django 模型表单中的一个字段

machine-learning - 如何使用tensorflow获取inception模型中分类图片的热图或x y坐标(边界框)

c# - 使用 C#/VB.Net 将数据集转换为 JSON

Scala - 如何将 Dataset[Row] 转换为可以添加到 Dataframe 的列

validation - Angular 2 : How to access to form validation fields in Component. ts

php - 验证:超越电子邮件地址/电话号码