machine-learning - 具有固定协方差的高斯核密度估计(使用python)

标签 machine-learning python kernel

我可以使用 scipy 库通过简单地运行来执行高斯核密度估计

from scipy import stats
kernel = stats.gaussian_kde(data)

但我想将协方差固定为某个预定义值并用它执行 KDE。有没有一种简单的方法可以在 python 的帮助下实现这一目标,而无需明确编写优化程序(如果没有现有的库提供此类功能,我会这样做,但我希望避免它)。

最佳答案

来 self 的评论:

通常,对于密度估计,所涉及的高斯用作“窗口”函数,并且该窗口的“协方差”(在一维情况下实际上是带宽参数)仅用于控制窗口的响应如何下降off 作为被测点距离的函数。我不熟悉任何寻求使用特定多元协方差结构来实现这种窗口衰减效果的 KDE 程序。

我还猜测,在实践中建议使用的最复杂的此类“协方差”是对角矩阵,您只需为数据的每个维度使用不同的带宽参数。也许(这可能非常脆弱)您可以对数据的主要方向进行某种 PCA 分解,并将不同的带宽放在那里,但我认为除非数据方向具有截然不同的比例,否则这不太可能会有所返回,在这种情况下,您最好在一开始就使用 KDE 之前对您的输入进行评分,并使用一个带宽。

如果您阅读 KDE examples来自 scikits.learn,及其 KernelDensity class 的文档,似乎(像 SciPy)他们只是为您提供带宽功能(单个 float )来总结内核的响应应该下降的方式。

对我来说,这表明对多变量带宽设置进行大量控制并没有多大实际意义。最好的办法是执行一些评分或标准化,以某种方式转换您的输入变量,使它们都具有相同的比例(以便在每个方向上以相同的比例进行平滑是合适的),然后使用 KDE 来预测或分类值转换空间,如果您想返回原始缩放空间,则对每个坐标应用逆变换。

关于machine-learning - 具有固定协方差的高斯核密度估计(使用python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18728111/

相关文章:

algorithm - 梯度下降算法在matlab中给出错误答案

pandas - 如何打印 Sklearn 中 GridSearch 中使用的召回率和准确率以及参数?

python - 根据另一列特定值的每次出现在 pandas 中添加索引

python - asyncio.gather 的 "Lazy"版本?

linux - 进程被linux内核杀死?

x86 - 是否有关于如何布局全局描述符表条目的约定?

c++ - 需要非常小的开源内核

python - 可视化 PCA 转换后的数据

machine-learning - 对数字分类数据实现朴素贝叶斯高斯分类器

php - 具有动态组件的静态站点生成器