Python 朴素贝叶斯分类器中的偏度和峰度

我正在用 Python 创建一个朴素贝叶斯分类器，它能够根据一天的一些天气数据猜测是哪一个月。

目前使用平均值和标准差对月份进行分类，但我认为添加偏度和峰度可能有助于提高准确性。

我目前正在使用 scipy.stats.norm.cdf 来计算机会，但我似乎无法在 Python 中找到任何考虑偏度和峰度的 cdf 函数。

我觉得我可能没有正确理解偏度和峰度。偏度和峰度对 cdf 函数有影响，因此我希望将它们作为参数给出。

我对偏度、峰度和 cdf 函数的理解是否存在根本性错误？如果没有，那么我在哪里可以找到考虑所有这些参数的 cdf 函数的 Python 实现？

最佳答案

正态分布，您使用的(scipy.stats.norm)通常用于朴素贝叶斯中的一维条件分布建模，它仅由两个参数显式定义 - 其平均值和标准。指定偏度/峰度是没有意义的，因为它们对于您的分布来说是常数(特别是峰度为 3)。

您正在考虑的可能是 PIL 逊分布，它用于拟合更多矩(均值、标准差、偏度和峰度)。

关于Python 朴素贝叶斯分类器中的偏度和峰度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33964977/