为了解释一下,假设我正在检查 9 个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例有 5 个类“4”的最近邻居和 4 个类“9”的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然,第二个测试实例被分类为“4”,其确定性比第一个测试实例大得多。如何用函数来表达这一点,以及如何考虑距离?
我还想将其实现到其他分类器。有没有可能有一个具有此功能的 C/C++ 库可供我用于任何类型的分类器?
最佳答案
天真的答案:标准化计数以获得后验概率。使用加权计数,权重对应于相似性(距离的倒数)以考虑距离。
更好的主意:看看kernel density estimation作为更正式的版本。
关于machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24625955/