machine-learning - 模糊 c- 表示分类数据

标签 machine-learning cluster-analysis data-mining fuzzy

可以fuzzy c-means应用于非数值数据集 ?即分类或混合数字和分类.. 如果是的话(我希望如此:( ):

  • 我们如何计算聚类中心?

如果否,有什么替代方案..如何对这些数据进行模糊聚类?

我需要回复,请帮忙

注意:我已经使用 Jacard 系数来计算两点之间的距离,但仍然没有找到计算聚类中心的方法,请参阅附件 enter image description here jacard coefficient

最佳答案

您必须将数据转换为数字形式。有多种方法可以做到这一点,其中两种是:

  • 使用特征计数向量(常见于文本分类等)
  • 使用 one-hot 表示,其中可以采用 n 个不同值的分类特征表示为 n 位的字符串,其中只有 i 如果某个要素的第 i 个值在其允许范围内,则设置第 ' 位。

这两者都是许多机器学习程序在幕后进行的非常常见的转换。此外,您可能想尝试一种与欧几里得度量不同的度量。特别是。使用one-hot表示,但根据数据,L1范数(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换后的数据集即可。

关于machine-learning - 模糊 c- 表示分类数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7698713/

相关文章:

algorithm - 补全稀疏矩阵数据的机器学习算法

javascript - 如何使用javascript获取HTML数据

java - 在 Python 3.6 中调用 sklearn2pmml() 函数会抛出 RuntimeError

python - 使用python从混淆矩阵进行分层聚类

python - 是否有任何受监督的聚类算法或将先验知识应用于聚类的方法?

c++ - PCL : How to delete deviations from a point cloud?

python - 为什么 GridSearchCV 在重复运行时给出不同的最佳值?

R - 如何让 glmnet 选择 lambda,同时在插入符号中提供 alpha 范围?

image-processing - 从图像元数据中提取特征

python - 如何使用 python 从公共(public)谷歌表中获取数据?