python - 通过子类化 scipy.stats.rv_continuous 创建偏斜正态分布的问题

标签 python statistics scipy

编辑:计算出分布。并使其大部分工作,除了形状参数为负时。 PDF 应该适用于负形状值,但不适用于子类分布。


我正在尝试使用 scipy 统计数据创建偏态正态分布。我现在只需要PDF。

我对 rv_continuous 进行了子类化,但是当我使用 skew_norm.pdf(x, shape) 时,我得到了一个 NaN 数组。

这是我的类(class):

class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s):
        return 2 * norm.pdf(x) * norm.cdf(x * s)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

我试过直接(在类之外)计算 PDF,这很有效。

此外,如果我添加 *args* 是否可以像正态分布 PDF norm.pdf(x, loc=mu, scale=std ):

class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * norm.pdf(x, *args) * norm.cdf(x * s, *args)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

谢谢。


编辑:

感谢 CT Zhu 的建议,我也尝试了一个简单的例子。下面的代码有时吐出一个 nan 数组,有时吐出一个值数组。

In [26]:
import scipy.stats as ss

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [27]:
data = ss.norm.rvs(0, size=100)
s = ss.skew(data)
skew_norm.pdf(data, s)

Out[28]:
array([ nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan])

编辑 2:

如果形状参数 < 0,PDF 会输出 NaN。

我可以直接计算 skewnorm PDF,没问题。如果我尝试使用子类化的 PDF,它会返回 NaN。

最佳答案

无法复现错误,参见:

In [15]:
import scipy.stats as ss
class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [17]:
skew_norm.pdf(3, 4)
Out[17]:
0.0088636968238760151

是的,你可以传递额外的*args:

In [18]:

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * ss.norm.pdf(x, *args) * ss.norm.cdf(x * s, *args)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [20]:
skew_norm.pdf(3, 4, loc=0.5, scale=3)
Out[20]:
0.18786061213807126

In [21]:
skew_norm.pdf(3, s=4, loc=0.5, scale=3)
Out[21]:
0.18786061213807126
In [22]:

skew_norm.pdf(3, s=4, loc=0, scale=1)
Out[22]:
0.0088636968238760151
In [28]:
plt.plot(np.linspace(-5, 5), skew_norm.pdf(np.linspace(-5,5),4), label='Skewed')
plt.plot(np.linspace(-5, 5), ss.norm.pdf(np.linspace(-5,5)), label='Normal')
plt.legend()    
Out[28]:
[<matplotlib.lines.Line2D at 0x1092667d0>]

enter image description here

编辑:

在您的示例数据中,s 为负数,这导致生成的 pdf 仅包含 nan,默认的 badvalue(我认为所谓的)由 rv_continuous 定义。

问题的根源是:有一个默认的 _argcheck() 方法,用于验证参数是否有效。默认是检查是否所有参数都>0。在这种情况下,它不是。

所以解决方案是覆盖默认的 _argchek() 方法,方法是:

class skew_norm_gen(ss.rv_continuous):
    def _argcheck(self, skew):
        return np.isfinite(skew) #I guess we can confine it to finite value
    def _pdf(self, x, skew):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * skew)  

然后它应该可以正常工作。

(此外,我建议调用附加参数 skew,只是为了提高可读性。's' 可以表示标准偏差等)

关于python - 通过子类化 scipy.stats.rv_continuous 创建偏斜正态分布的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25043103/

相关文章:

python - 在 pandas 数据帧上执行 fillna 时出现 InvalidIndexError

python - 从某个元素开始循环遍历列表

r - 命令 "plot(qnorm)"在 R 中如何工作?

python - 使用 numpy 在重复信号的一部分内绘制抛物线

python - 我的python代码要花费8个多小时才能遍历大数据

python - 实现部分c源代码

python - scipy.optimize 加载 DLL 失败?

python - 类型错误 : ttest_1samp() got an unexpected keyword argument 'alternative'

perl - 内存高效的统计分布模块

r - 如何查找R中的数字是否连续?