python - T 分布的奇怪行为

我有一个经验分布，我正在尝试使用 numpy 拟合 T 分布，并使用 matplotlib 绘制它。

这是我无法理解的事情:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t

arr = np.array( [140, 36, 44, 24, 15, 48, 19, 2, 84, 6, 70, 3, 20, 6, 133, 23, 30, 7, 37, 165] )

params = t.fit( arr )

mean = arr.mean()
std = arr.std()

r = np.arange( mean - 3 * std, mean + 3 * std, 0.01 ) 

pdf_fitted = t.pdf(r, *params[0:-2], loc=params[-2], scale=params[-1])
plt.plot( r,  pdf_fitted )

plt.plot( [mean, mean], [0, max(pdf_fitted)] )

plt.show()

此图:

绿线是经验数据的平均值，蓝线是相同数据的拟合T分布。

问题是经验平均值和分布峰值不匹配。当我将正态分布拟合到相同的数据时，我得到了与绿线和分布峰值的完美匹配，正如预期的那样。

现在，查看 Wikipedia T distribution :

The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails...

因为它说它是对称，所以我希望我的平均值和峰值完美匹配，但事实并非如此。

我的问题是:我的 Python 代码有什么问题吗？还是 T 发行版的预期行为？如果是，为什么？如果不是，我的代码做错了什么？

最佳答案

据我所知，Python 代码中没有错误；实际上，这是一个很好的例子，可以说明学生t分布与高斯分布相比的稳健性。指数族分布(高斯分布、指数分布、二项分布、泊松分布等)的一个特征是它们的尾部非常细，这意味着当您偏离均值时，pdf 会呈指数下降。这一特性为它们提供了良好的理论特性，但通常是将它们应用于对现实世界分布进行建模的瓶颈，因为数据集中存在大量异常值。因此，t 分布是一种流行的替代方案，因为观察到的数据集中的几个异常值不会对您的推论产生太大影响。在您的示例中，请将原始数据集视为由除三个高异常值之外的所有点组成。然而，这些异常值是在某些嘈杂的过程中引入的。统计推断的目的是描述原始数据集的属性(例如平均值)，因此假设您在这种情况下使用高斯分布，您将严重高估真实平均值。如果您在这种情况下使用t，它将与噪声样本的平均值不匹配，但无论异常值如何，它都会是对原始真实平均值的更准确的估计。

关于python - T 分布的奇怪行为，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32622170/

python - T 分布的奇怪行为

上一篇：python - 在 Python 中用 RegEx 替换变量模式

下一篇：python - 无法在Python中将字符串转换为日期