python - 如何绘制经验 cdf (ecdf)

标签 python numpy statistics matplotlib scipy

如何在 Python 中绘制 matplotlib 中数字数组的经验 CDF?我正在寻找 pylab 的“hist”函数的 cdf 模拟。

我能想到的一件事是:

from scipy.stats import cumfreq
a = array([...]) # my array of numbers
num_bins =  20
b = cumfreq(a, num_bins)
plt.plot(b)

最佳答案

如果你喜欢 linspace 并且更喜欢单行,你可以这样做:

plt.plot(np.sort(a), np.linspace(0, 1, len(a), endpoint=False))

鉴于我的口味,我几乎总是这样做:

# a is the data array
x = np.sort(a)
y = np.arange(len(x))/float(len(x))
plt.plot(x, y)

这对我有用,即使有 >O(1e6) 数据值。 如果你真的需要下采样,我会设置

x = np.sort(a)[::down_sampling_step]

Edit 以回复评论/编辑我为什么使用上述定义的 endpoint=Falsey。以下是一些技术细节。

经验 CDF 通常正式定义为

CDF(x) = "number of samples <= x"/"number of samples"

为了完全匹配这个正式的定义,你需要使用 y = np.arange(1,len(x)+1)/float(len(x)) 以便我们得到 y = [1/N, 2/N ... 1]。这个估计器是一个无偏估计器,它将在无限样本的限制下收敛到真正的 CDF Wikipedia ref. .

我倾向于使用 y = [0, 1/N, 2/N ... (N-1)/N] 因为:

(a) 更容易编码/更惯用,

(b) 但在形式上仍然是合理的,因为在收敛证明中总是可以将 CDF(x)1-CDF(x) 交换,并且

(c) 与上述(简单的)下采样方法一起使用。

在某些特殊情况下,定义是有用的

y = (arange(len(x))+0.5)/len(x)

介于这两种约定之间。实际上,它说“有一个 1/(2N) 的机会小于我在示例中看到的最低值,并且一个 1/(2N) 值的可能性大于我目前看到的最大值。

请注意,此约定的选择与 plt.step 中使用的 where 参数相互作用。如果显示看起来更有用 CDF 作为分段常数函数。为了完全匹配上面提到的正式定义,需要使用 where=pre 建议的 y=[0,1/N..., 1-1/N] 约定,或 where=posty=[1/N, 2/N ... 1] 约定,但不是相反。

但是,对于大样本和合理分布,答案主体中给出的约定易于编写,是真实 CDF 的无偏估计量,并且适用于下采样方法。

关于python - 如何绘制经验 cdf (ecdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3209362/

相关文章:

python - 多项式回归失败

python - 从数据集中过滤非 -'cohorts'

python - 如何重用 Python 类中的返回值,而无需每次都重新运行该函数?

numpy - Tensorflow/Numpy 中 torch.nn.functional.grid_sample 的等价物是什么?

python - np.argsort 如何在 pandas DataFrame 中工作?

Python:从列表创建数据框,其中每个新行都从特定的列表索引开始

python - OTB 是否足以评估随机森林或 bagging 分类器,或者交叉验证也适用于此?

python - pyspark上这个函数有什么问题?

python - 按字符串中正斜杠的数量对以字符串为值的字典进行排序

Python 3 urllib VS 请求性能