machine-learning - 模糊 c- 表示分类数据

可以fuzzy c-means应用于非数值数据集 ?即分类或混合数字和分类.. 如果是的话(我希望如此:( ):

如果否，有什么替代方案..如何对这些数据进行模糊聚类？

我需要回复，请帮忙

注意:我已经使用 Jacard 系数来计算两点之间的距离，但仍然没有找到计算聚类中心的方法，请参阅附件 enter image description here jacard coefficient

最佳答案

您必须将数据转换为数字形式。有多种方法可以做到这一点，其中两种是:

使用特征计数向量(常见于文本分类等)
使用 one-hot 表示，其中可以采用 n 个不同值的分类特征表示为 n 位的字符串，其中只有 i 如果某个要素的第 i 个值在其允许范围内，则设置第 ' 位。

这两者都是许多机器学习程序在幕后进行的非常常见的转换。此外，您可能想尝试一种与欧几里得度量不同的度量。特别是。使用one-hot表示，但根据数据，L1范数(曼哈顿/城市街区距离)可能更合适。

除此之外，只需将给定的公式应用于转换后的数据集即可。

关于machine-learning - 模糊 c- 表示分类数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7698713/

相关文章：

algorithm - 补全稀疏矩阵数据的机器学习算法