r - KNN算法如何应用于分类变量？

我正在处理数据集，其中大多数变量都是分类变量。有些变量甚至有 5 个类别。在这种情况下是否可以实现knn算法？如果是这样，我该如何处理这些分类变量？我必须将它们标准化吗？我正在使用 R，如果有人可以指导我找到来源，那将会很有帮助。

最佳答案

您的第一步是确定您的观察结果之间的距离/相异度函数。

一种选择是将分类变量转换为虚拟二元变量，然后计算每行对之间的杰卡德距离。 Here是这些步骤的简单教程。

一旦定义了距离，您就可以像往常一样继续使用 KNN 算法。我不确定 R 中是否已经有任何包实现了这一点，或者您是否应该自己编程。不应该那么复杂

关于r - KNN算法如何应用于分类变量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39416016/

相关文章：

python - Scikit-learn 特定列的错误输入形状 ()