我有一个经验分布,我正在尝试使用 numpy
拟合 T
分布,并使用 matplotlib
绘制它。
这是我无法理解的事情:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t
arr = np.array( [140, 36, 44, 24, 15, 48, 19, 2, 84, 6, 70, 3, 20, 6, 133, 23, 30, 7, 37, 165] )
params = t.fit( arr )
mean = arr.mean()
std = arr.std()
r = np.arange( mean - 3 * std, mean + 3 * std, 0.01 )
pdf_fitted = t.pdf(r, *params[0:-2], loc=params[-2], scale=params[-1])
plt.plot( r, pdf_fitted )
plt.plot( [mean, mean], [0, max(pdf_fitted)] )
plt.show()
此图:
绿线是经验数据的平均值,蓝线是相同数据的拟合T
分布。
问题是经验平均值和分布峰值不匹配。当我将正态
分布拟合到相同的数据时,我得到了与绿线和分布峰值的完美匹配,正如预期的那样。
现在,查看 Wikipedia T distribution :
The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails...
因为它说它是对称,所以我希望我的平均值和峰值完美匹配,但事实并非如此。
我的问题是:我的 Python 代码有什么问题吗?还是 T
发行版的预期行为?如果是,为什么?如果不是,我的代码做错了什么?
最佳答案
据我所知,Python 代码中没有错误;实际上,这是一个很好的例子,可以说明学生t分布与高斯分布相比的稳健性。指数族分布(高斯分布、指数分布、二项分布、泊松分布等)的一个特征是它们的尾部非常细,这意味着当您偏离均值时,pdf 会呈指数下降。这一特性为它们提供了良好的理论特性,但通常是将它们应用于对现实世界分布进行建模的瓶颈,因为数据集中存在大量异常值。因此,t 分布是一种流行的替代方案,因为观察到的数据集中的几个异常值不会对您的推论产生太大影响。在您的示例中,请将原始数据集视为由除三个高异常值之外的所有点组成。然而,这些异常值是在某些嘈杂的过程中引入的。统计推断的目的是描述原始数据集的属性(例如平均值),因此假设您在这种情况下使用高斯分布,您将严重高估真实平均值。如果您在这种情况下使用t,它将与噪声样本的平均值不匹配,但无论异常值如何,它都会是对原始真实平均值的更准确的估计。
关于python - T 分布的奇怪行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32622170/