machine-learning - 聚类算法(如 Kmeans 和 EM)的特征缩放(归一化)

标签 machine-learning cluster-analysis normalization feature-extraction

我想使用 KMeans 聚类算法来分析个人资料数据。示例数据的格式为:

Features: name   ISBN     Date             ID      price ....
          'A'   '31NDB'  '05/18/2014'    'CBDDN'   12.00
          'B'   '3241B'  '08/19/2012/    'ABCDE'   33.08

这些只是示例，真实数据不一定是这种格式。但是，如果需要对这组数据应用聚类算法，如何进行特征缩放(又名归一化部分)？我应该如何处理字符串值、日期值和价格( double )值？这些值之间有关系吗？我很困惑...

有什么想法吗？

最佳答案

K-means 和 EM 仅适用于数值数据。

将它们应用于名称/日期/价格类型的数据没有多大意义。

顾名思义，该算法需要计算均值。您将如何计算“名称”列中的平均值？您可以修改日期，但不能修改名称。

不适合您的工作的工具。

关于machine-learning - 聚类算法(如 Kmeans 和 EM)的特征缩放(归一化)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26665479/

上一篇：python - 使用SVM的语义角色标记系统

下一篇：machine-learning - 机器学习 - 特征选择和训练数据

相关文章：

python - 散点图按颜色分隔簇 matplotlib python

pandas - 连续而不是离散的集群组 - python

HTML5 属性值规范化

php - MySQL 头痛，我应该还是不应该？

r - 具有单个输入变量的 kmeans 聚类图

machine-learning - 我们可以只使用 model.fit 而不是 model.fit_generator 吗？

machine-learning - 如何找到加权图中链接的预测权重的概率

machine-learning - 为什么PCA会降低Logistic回归的性能？

machine-learning - 使用 weka.clusterers.HierarchicalClusterer 时出现 IllegalArgumentException

mysql - 关于地址、城市、国家数据的规范化问题