python - 如何绘制经验 cdf (ecdf)

如何在 Python 中绘制 matplotlib 中数字数组的经验 CDF？我正在寻找 pylab 的“hist”函数的 cdf 模拟。

我能想到的一件事是:

from scipy.stats import cumfreq
a = array([...]) # my array of numbers
num_bins =  20
b = cumfreq(a, num_bins)
plt.plot(b)

最佳答案

如果你喜欢 linspace 并且更喜欢单行，你可以这样做:

plt.plot(np.sort(a), np.linspace(0, 1, len(a), endpoint=False))

鉴于我的口味，我几乎总是这样做:

# a is the data array
x = np.sort(a)
y = np.arange(len(x))/float(len(x))
plt.plot(x, y)

这对我有用，即使有 >O(1e6) 数据值。如果你真的需要下采样，我会设置

x = np.sort(a)[::down_sampling_step]

Edit 以回复评论/编辑我为什么使用上述定义的 endpoint=False 或 y。以下是一些技术细节。

经验 CDF 通常正式定义为

CDF(x) = "number of samples <= x"/"number of samples"

为了完全匹配这个正式的定义，你需要使用 y = np.arange(1,len(x)+1)/float(len(x)) 以便我们得到 y = [1/N, 2/N ... 1]。这个估计器是一个无偏估计器，它将在无限样本的限制下收敛到真正的 CDF Wikipedia ref. .

我倾向于使用 y = [0, 1/N, 2/N ... (N-1)/N] 因为:

(a) 更容易编码/更惯用，

(b) 但在形式上仍然是合理的，因为在收敛证明中总是可以将 CDF(x) 与 1-CDF(x) 交换，并且

在某些特殊情况下，定义是有用的

y = (arange(len(x))+0.5)/len(x)

介于这两种约定之间。实际上，它说“有一个 1/(2N) 的机会小于我在示例中看到的最低值，并且一个 1/(2N) 值的可能性大于我目前看到的最大值。

请注意，此约定的选择与 plt.step 中使用的 where 参数相互作用。如果显示看起来更有用 CDF 作为分段常数函数。为了完全匹配上面提到的正式定义，需要使用 where=pre 建议的 y=[0,1/N..., 1-1/N] 约定，或 where=post 与 y=[1/N, 2/N ... 1] 约定，但不是相反。

但是，对于大样本和合理分布，答案主体中给出的约定易于编写，是真实 CDF 的无偏估计量，并且适用于下采样方法。

关于python - 如何绘制经验 cdf (ecdf)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3209362/

python - 如何绘制经验 cdf (ecdf)

上一篇：python - 在 Python 中转换文件大小的更好方法

下一篇：python - SQLite 参数替换问题