machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性？

标签 machine-learning classification nearest-neighbor reliability supervised-learning

为了解释一下，假设我正在检查 9 个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例有 5 个类“4”的最近邻居和 4 个类“9”的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然，第二个测试实例被分类为“4”，其确定性比第一个测试实例大得多。如何用函数来表达这一点，以及如何考虑距离？

我还想将其实现到其他分类器。有没有可能有一个具有此功能的 C/C++ 库可供我用于任何类型的分类器？

最佳答案

天真的答案:标准化计数以获得后验概率。使用加权计数，权重对应于相似性(距离的倒数)以考虑距离。

更好的主意:看看kernel density estimation作为更正式的版本。

关于machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24625955/

上一篇：machine-learning - 如何可视化决策树？

下一篇：python - Stacked DenoisingAutoencoders 的 Theano 实现 - 为什么 dA 层的输入相同？

相关文章：

algorithm - 八叉树的近似最近邻算法

apache-spark - svd 性能 pyspark 与 scipy

python - 使用 fit 进行 sklearn gridsearchcv

machine-learning - 下面的场景使用什么样的分类器？

python-3.x - 从文件加载数据并标准化

python - 从 scipy CSR 矩阵索引到 numpy 数组的最有效方法？

python - 更改字典中特定键的特定值

machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP？

apache-spark - SPARK ML，朴素贝叶斯分类器 : high probability prediction for one class

algorithm - 为什么减少 K 近邻中的 K 会增加复杂性？