machine-learning - 聚类算法(如 Kmeans 和 EM)的特征缩放(归一化)

标签 machine-learning cluster-analysis normalization feature-extraction

我想使用 KMeans 聚类算法来分析个人资料数据。示例数据的格式为:

Features: name   ISBN     Date             ID      price ....
          'A'   '31NDB'  '05/18/2014'    'CBDDN'   12.00
          'B'   '3241B'  '08/19/2012/    'ABCDE'   33.08

这些只是示例,真实数据不一定是这种格式。但是,如果需要对这组数据应用聚类算法,如何进行特征缩放(又名归一化部分)?我应该如何处理字符串值、日期值和价格( double )值?这些值之间有关系吗?我很困惑...

有什么想法吗?

最佳答案

K-means 和 EM 仅适用于数值数据。

将它们应用于名称/日期/价格类型的数据没有多大意义。

顾名思义,该算法需要计算均值。您将如何计算“名称”列中的平均值?您可以修改日期,但不能修改名称。

不适合您的工作的工具。

关于machine-learning - 聚类算法(如 Kmeans 和 EM)的特征缩放(归一化),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26665479/

相关文章:

python - 散点图按颜色分隔簇 matplotlib python

pandas - 连续而不是离散的集群组 - python

HTML5 属性值规范化

php - MySQL 头痛,我应该还是不应该?

r - 具有单个输入变量的 kmeans 聚类图

machine-learning - 我们可以只使用 model.fit 而不是 model.fit_generator 吗?

machine-learning - 如何找到加权图中链接的预测权重的概率

machine-learning - 为什么PCA会降低Logistic回归的性能?

machine-learning - 使用 weka.clusterers.HierarchicalClusterer 时出现 IllegalArgumentException

mysql - 关于地址、城市、国家数据的规范化问题