python - Scipy rv_continuous 错误地从分布生成样本

标签 python random scipy statistics

from scipy import stats
import numpy as np 

class your_distribution(stats.rv_continuous):
    def _pdf(self, x):
        p0 = 10.9949
        p1 = 0.394447
        p2 = 12818.4
        p3 = 2.38898

        return ((p1*p3)/(p3*p0+p2*p1))*((p0*np.exp(-1.0*p1*x))+(p2*np.exp(-1.0*p3*x)))

distribution = your_distribution(a=0.15, b=10.1)
sample = distribution.rvs(size=50000)

上面的代码从 0.15 到 10.1 范围内的归一化 pdf 生成 50000 个样本。但是,在上限 b=10.1 处生成了不成比例的大量样本。这没有意义,如绘制 pdf 时所见。

我该如何解决这个问题?

最佳答案

PDF 已针对整个分布范围正确标准化。但是,设置 ab 只会剪切 PDF,而不会进行任何重新规范化。使用 (a=0.15, b=10.1) PDF 不再集成到 1,并且由于 scipy 实现的一个怪癖,剩余的密度显然被添加到范围的末尾。这导致在上界的大量样本。

我们可以通过绘制 a=0 和 a=0.15 的累积密度函数 (CDF) 来可视化正在发生的事情:

x = np.linspace(0, 15, 1000)

distribution = your_distribution(a=0.0, b=10.1)
plt.plot(x, distribution.cdf(x), label='a=0')

distribution = your_distribution(a=0.15, b=10.1)
plt.plot(x, distribution.cdf(x), label='a=0.15')

plt.legend()

enter image description here

为了消除 CDF 中的跳跃和较高范围内的虚假样本,我们需要针对 a..b 范围重新归一化 PDF。我懒得分析得出正确的因素,所以让 scipy 来做艰苦的工作:

from scipy import stats
from scipy.integrate import quad
import numpy as np

# I pulled the definition of the PDF out of the class so we can use it to
# compute the scale factor.
def pdf(x):
    p0 = 10.9949
    p1 = 0.394447
    p2 = 12818.4
    p3 = 2.38898

    return ((p1*p3)/(p3*p0+p2*p1))*((p0*np.exp(-1.0*p1*x))+(p2*np.exp(-1.0*p3*x)))    

class your_distribution(stats.rv_continuous):        
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

        # integrate area of the PDF in range a..b
        self.scale, _ = quad(pdf, self.a, self.b)

    def _pdf(self, x):
        return pdf(x) / self.scale  # scale PDF so that it integrates to 1 in range a..b 

distribution = your_distribution(a=0.15, b=10.1)
sample = distribution.rvs(size=1000)

如果您碰巧知道积分的解析解,您可以使用它来代替调用 quad

关于python - Scipy rv_continuous 错误地从分布生成样本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50857909/

相关文章:

python - Keras 回归多输出

python - 从 Python 快速查询大型 MongoDB 集合

python - Tkinter 中的文本输入

mysql - 其中 In + Rand() + Limit

python - scipy 和 numpy 在没有 root 的 linux 上安装

python - Scipy 优化 Curve_fit 边界错误

python lmfit "object too deep for desired array"

python - 为什么 y = [m*x + b for x in Months] 有效?

java - 如何在 Java 中测试一副纸牌是否洗得足够多

在 C 的多线程程序中创建随机数