我正在用 Python 创建一个朴素贝叶斯分类器,它能够根据一天的一些天气数据猜测是哪一个月。
目前使用平均值和标准差对月份进行分类,但我认为添加偏度和峰度可能有助于提高准确性。
我目前正在使用 scipy.stats.norm.cdf 来计算机会,但我似乎无法在 Python 中找到任何考虑偏度和峰度的 cdf 函数。
我觉得我可能没有正确理解偏度和峰度。偏度和峰度对 cdf 函数有影响,因此我希望将它们作为参数给出。
我对偏度、峰度和 cdf 函数的理解是否存在根本性错误?如果没有,那么我在哪里可以找到考虑所有这些参数的 cdf 函数的 Python 实现?
最佳答案
正态分布,您使用的(scipy.stats.norm)通常用于朴素贝叶斯中的一维条件分布建模,它仅由两个参数显式定义 - 其平均值
和标准
。指定偏度/峰度是没有意义的,因为它们对于您的分布来说是常数(特别是峰度为 3)。
您正在考虑的可能是 PIL 逊分布,它用于拟合更多矩(均值、标准差、偏度和峰度)。
http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html
关于Python 朴素贝叶斯分类器中的偏度和峰度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33964977/