我想知道如何才能声称我正确捕获了数据中的“噪音”?
具体来说,以主成分分析为例,我们知道在PCA中,进行SVD之后,我们可以将小的奇异值归零,并使用低秩近似来重建原始矩阵。
那么我可以说被忽略的确实是数据中的噪音吗? 这有什么评价指标吗?
我能想到的唯一方法就是从重建的数据中减去原始数据。
然后,尝试在其上拟合高斯函数,看看拟合是否良好。
这是DSP领域的常规方法吗??
顺便说一句,我认为在典型的机器学习任务中,衡量的是后续分类性能,但由于我正在做纯生成模型,因此没有附加标签。
最佳答案
在我看来,噪声的定义取决于问题的领域。因此,减少它的策略在每个域上都会有所不同。
例如,地震地层分类等问题中的噪声信号或人脸分类问题中的噪声图像将与医疗诊断问题中不正确标记的数据产生的噪声或由于相似的单词具有不同的噪声而产生的噪声截然不同。文档语言分类问题中的含义。
当噪声是由于给定(或一组)数据点引起时,解决方案就像忽略这些数据点一样简单(尽管大多数时候识别这些数据点是具有挑战性的部分)
根据您的示例,我猜您更关心将噪声嵌入到特征中的情况(例如地震示例)。有时,人们倾向于使用中值滤波器(http://en.wikipedia.org/wiki/Median_filter)等降噪滤波器来预处理数据。相比之下,其他一些人倾向于降低数据的维度来减少噪声,PCA就用于这种场景。
这两种策略都是有效的,通常人们都会尝试这两种策略并交叉验证它们,看看哪一种能产生更好的结果。
您所做的是检查高斯噪声的一个很好的指标。然而,对于非高斯噪声,您的指标可能会给您带来假阴性(适应性较差,但仍然具有良好的降噪效果)
关于machine-learning - 如何验证什么是噪音什么是真实数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15426670/