我正在处理数据集,其中大多数变量都是分类变量。有些变量甚至有 5 个类别。在这种情况下是否可以实现knn算法?如果是这样,我该如何处理这些分类变量?我必须将它们标准化吗?我正在使用 R,如果有人可以指导我找到来源,那将会很有帮助。
最佳答案
您的第一步是确定您的观察结果之间的距离/相异度函数。
一种选择是将分类变量转换为虚拟二元变量,然后计算每行对之间的杰卡德距离。 Here是这些步骤的简单教程。
一旦定义了距离,您就可以像往常一样继续使用 KNN 算法。我不确定 R 中是否已经有任何包实现了这一点,或者您是否应该自己编程。不应该那么复杂
关于r - KNN算法如何应用于分类变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39416016/