这是我的问题描述:
“根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。但是,我们知道这些收集的数据并不可靠,因为有很多错误陈述。尽管存在这些错误陈述,我们在数据集中的一些特征确实是可靠的。但这些特征只是每个家庭财富信息的一小部分。”
不可靠的数据意味着家庭向政府撒谎。这些家庭虚报收入和财富,以便不公平地获得更多政府服务。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。
现在,我有以下问题:
- 我们应该如何处理数据科学中不可靠的数据?
- 有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人? -我们如何评估这项研究中的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督方法吗?或者,我应该使用半监督学习方法吗?
- 机器学习中有哪些想法或应用可以尝试提高所收集数据的质量?
请向我介绍任何可以帮助我解决此问题的想法或引用。
提前致谢。
最佳答案
问:数据科学中我们应该如何处理不可靠的数据
A:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全丢弃它们 - 不良特征可能会显着降低模型的质量
问:有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?
答:机器学习算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄清楚任何事情。您能描述一下“不可靠”的含义吗?如果是,正如我提到的,您可以使用特征工程或编写代码来修复数据。否则,如果没有描述您到底想要实现什么,任何机器学习算法都无法为您提供帮助
问:机器学习中有什么想法或应用可以尝试提高收集数据的质量吗?
答:我不这么认为,只是因为问题本身太开放性了。 “数据质量”是什么意思?
一般来说,您需要考虑以下几点:
1) 花一些时间在谷歌上搜索特征工程指南。它们涵盖了如何为 ML 算法准备数据、优化数据、修复数据。好的数据加上好的特征可以显着提高结果。
2)您不需要使用原始数据中的所有特征。原始数据集的某些特征是没有意义的,你不需要使用它们。尝试在数据集上运行梯度增强机或来自 scikit-learn 的随机森林分类器来执行分类(或回归,如果您进行回归)。这些算法还评估原始数据集每个特征的重要性。您的部分功能对于分类来说重要性极低,因此您可能希望完全删除它们,或者尝试以某种方式将不重要的功能组合在一起以产生更重要的功能。
关于machine-learning - 使用不准确(不正确)的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30996952/