python - T 分布的奇怪行为

标签 python numpy matplotlib

我有一个经验分布,我正在尝试使用 numpy 拟合 T 分布,并使用 matplotlib 绘制它。

这是我无法理解的事情:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t

arr = np.array( [140, 36, 44, 24, 15, 48, 19, 2, 84, 6, 70, 3, 20, 6, 133, 23, 30, 7, 37, 165] )

params = t.fit( arr )

mean = arr.mean()
std = arr.std()

r = np.arange( mean - 3 * std, mean + 3 * std, 0.01 ) 

pdf_fitted = t.pdf(r, *params[0:-2], loc=params[-2], scale=params[-1])
plt.plot( r,  pdf_fitted )

plt.plot( [mean, mean], [0, max(pdf_fitted)] )

plt.show()

此图:

enter image description here

绿线是经验数据的平均值,蓝线是相同数据的拟合T分布。

问题是经验平均值和分布峰值不匹配。当我将正态分布拟合到相同的数据时,我得到了与绿线和分布峰值的完美匹配,正如预期的那样。

现在,查看 Wikipedia T distribution :

The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails...

因为它说它是对称,所以我希望我的平均值和峰值完美匹配,但事实并非如此。

我的问题是:我的 Python 代码有什么问题吗?还是 T 发行版的预期行为?如果是,为什么?如果不是,我的代码做错了什么?

最佳答案

据我所知,Python 代码中没有错误;实际上,这是一个很好的例子,可以说明学生t分布与高斯分布相比的稳健性。指数族分布(高斯分布、指数分布、二项分布、泊松分布等)的一个特征是它们的尾部非常细,这意味着当您偏离均值时,pdf 会呈指数下降。这一特性为它们提供了良好的理论特性,但通常是将它们应用于对现实世界分布进行建模的瓶颈,因为数据集中存在大量异常值。因此,t 分布是一种流行的替代方案,因为观察到的数据集中的几个异常值不会对您的推论产生太大影响。在您的示例中,请将原始数据集视为由除三个高异常值之外的所有点组成。然而,这些异常值是在某些嘈杂的过程中引入的。统计推断的目的是描述原始数据集的属性(例如平均值),因此假设您在这种情况下使用高斯分布,您将严重高估真实平均值。如果您在这种情况下使用t,它将与噪声样本的平均值不匹配,但无论异常值如何,它都会是对原始真实平均值的更准确的估计。

关于python - T 分布的奇怪行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32622170/

相关文章:

python - PyCURL:TLS 握手错误

python - 使用 Pandas 计算导入的 csv 坐标之间的距离

文件中的 Python ElementTree.parse() 不会关闭文件

python - Python 中的密封/非密封包

Python:如何将包含行列格式坐标的文本文件读入 x-y 坐标数组?

python - python 中的跟踪函数

python - 在 Python (3.3) 中生成相关数据

python - 使用 Python 进行图像旋转

python - 在 seaborn 散点图中显示相关值

python - 以 2 为底的对数刻度