machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性?

标签 machine-learning classification nearest-neighbor reliability supervised-learning

为了解释一下,假设我正在检查 9 个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例有 5 个类“4”的最近邻居和 4 个类“9”的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然,第二个测试实例被分类为“4”,其确定性比第一个测试实例大得多。如何用函数来表达这一点,以及如何考虑距离?

我还想将其实现到其他分类器。有没有可能有一个具有此功能的 C/C++ 库可供我用于任何类型的分类器?

最佳答案

天真的答案:标准化计数以获得后验概率。使用加权计数,权重对应于相似性(距离的倒数)以考虑距离。

更好的主意:看看kernel density estimation作为更正式的版本。

关于machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24625955/

相关文章:

algorithm - 八叉树的近似最近邻算法

apache-spark - svd 性能 pyspark 与 scipy

python - 使用 fit 进行 sklearn gridsearchcv

machine-learning - 下面的场景使用什么样的分类器?

python-3.x - 从文件加载数据并标准化

python - 从 scipy CSR 矩阵索引到 numpy 数组的最有效方法?

python - 更改字典中特定键的特定值

machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP?

apache-spark - SPARK ML,朴素贝叶斯分类器 : high probability prediction for one class

algorithm - 为什么减少 K 近邻中的 K 会增加复杂性?