如何在 Python 中绘制 matplotlib 中数字数组的经验 CDF?我正在寻找 pylab 的“hist”函数的 cdf 模拟。
我能想到的一件事是:
from scipy.stats import cumfreq
a = array([...]) # my array of numbers
num_bins = 20
b = cumfreq(a, num_bins)
plt.plot(b)
最佳答案
如果你喜欢 linspace
并且更喜欢单行,你可以这样做:
plt.plot(np.sort(a), np.linspace(0, 1, len(a), endpoint=False))
鉴于我的口味,我几乎总是这样做:
# a is the data array
x = np.sort(a)
y = np.arange(len(x))/float(len(x))
plt.plot(x, y)
这对我有用,即使有 >O(1e6)
数据值。
如果你真的需要下采样,我会设置
x = np.sort(a)[::down_sampling_step]
Edit 以回复评论/编辑我为什么使用上述定义的 endpoint=False
或 y
。以下是一些技术细节。
经验 CDF 通常正式定义为
CDF(x) = "number of samples <= x"/"number of samples"
为了完全匹配这个正式的定义,你需要使用 y = np.arange(1,len(x)+1)/float(len(x))
以便我们得到
y = [1/N, 2/N ... 1]
。这个估计器是一个无偏估计器,它将在无限样本的限制下收敛到真正的 CDF Wikipedia ref. .
我倾向于使用 y = [0, 1/N, 2/N ... (N-1)/N]
因为:
(a) 更容易编码/更惯用,
(b) 但在形式上仍然是合理的,因为在收敛证明中总是可以将 CDF(x)
与 1-CDF(x)
交换,并且
(c) 与上述(简单的)下采样方法一起使用。
在某些特殊情况下,定义是有用的
y = (arange(len(x))+0.5)/len(x)
介于这两种约定之间。实际上,它说“有一个 1/(2N)
的机会小于我在示例中看到的最低值,并且一个 1/(2N)
值的可能性大于我目前看到的最大值。
请注意,此约定的选择与 plt.step
中使用的 where
参数相互作用。如果显示看起来更有用
CDF 作为分段常数函数。为了完全匹配上面提到的正式定义,需要使用 where=pre
建议的 y=[0,1/N..., 1-1/N]
约定,或 where=post
与 y=[1/N, 2/N ... 1]
约定,但不是相反。
但是,对于大样本和合理分布,答案主体中给出的约定易于编写,是真实 CDF 的无偏估计量,并且适用于下采样方法。
关于python - 如何绘制经验 cdf (ecdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3209362/