例如,我们总是假设数据或信号误差是高斯分布?为什么?
最佳答案
你将从有数学头脑的人那里得到的答案是“因为中心极限定理”。这表达了这样的想法:当您从几乎任何分布*中取出一堆随机数并将它们加在一起时,您将得到近似正态分布的东西。加在一起的数字越多,其正态分布就越明显。
我可以在 Matlab/Octave 中演示这一点。如果我生成 1 到 10 之间的 1000 个随机数并绘制直方图,我会得到这样的结果
如果我不是生成单个随机数,而是生成 12 个随机数并将它们加在一起,执行此操作 1000 次并绘制直方图,我会得到如下结果:
我在顶部绘制了具有相同均值和方差的正态分布,因此您可以了解匹配的接近程度。您可以看到我用来生成这些图的代码 at this gist .
在典型的机器学习问题中,您会遇到来自许多不同来源的错误(例如测量错误、数据输入错误、分类错误、数据损坏...),并且认为以下情况并非完全不合理:所有这些错误的综合影响大约是正常的(当然,您应该始终检查!)
对该问题的更务实的回答包括:
因为它使数学变得更简单。正态分布的概率密度函数是二次指数。取对数(就像你经常做的那样,因为你想最大化对数似然)得到一个二次方。对它进行微分(找到最大值)会得到一组线性方程,很容易通过分析求解。
很简单 - 整个分布由两个数字描述:均值和方差。
大多数将阅读您的代码/论文/报告的人都对此很熟悉。
这通常是一个很好的起点。如果您发现分布假设导致性能不佳,那么也许您可以尝试不同的分布。但您可能应该首先考虑其他方法来提高模型的性能。
*技术点 - 它需要具有有限方差。
关于math - 谁能告诉我为什么我们总是在机器学习中使用高斯分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12616406/