可以fuzzy c-means应用于非数值数据集 ?即分类或混合数字和分类.. 如果是的话(我希望如此:( ):
- 我们如何计算聚类中心?
如果否,有什么替代方案..如何对这些数据进行模糊聚类?
我需要回复,请帮忙
注意:我已经使用 Jacard 系数来计算两点之间的距离,但仍然没有找到计算聚类中心的方法,请参阅附件
最佳答案
您必须将数据转换为数字形式。有多种方法可以做到这一点,其中两种是:
- 使用特征计数向量(常见于文本分类等)
- 使用 one-hot 表示,其中可以采用 n 个不同值的分类特征表示为 n 位的字符串,其中只有 i 如果某个要素的第 i 个值在其允许范围内,则设置第 ' 位。
这两者都是许多机器学习程序在幕后进行的非常常见的转换。此外,您可能想尝试一种与欧几里得度量不同的度量。特别是。使用one-hot表示,但根据数据,L1范数(曼哈顿/城市街区距离)可能更合适。
除此之外,只需将给定的公式应用于转换后的数据集即可。
关于machine-learning - 模糊 c- 表示分类数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7698713/