我想使用 KMeans 聚类算法来分析个人资料数据。示例数据的格式为:
Features: name ISBN Date ID price ....
'A' '31NDB' '05/18/2014' 'CBDDN' 12.00
'B' '3241B' '08/19/2012/ 'ABCDE' 33.08
这些只是示例,真实数据不一定是这种格式。但是,如果需要对这组数据应用聚类算法,如何进行特征缩放(又名归一化部分)?我应该如何处理字符串值、日期值和价格( double )值?这些值之间有关系吗?我很困惑...
有什么想法吗?
最佳答案
K-means 和 EM 仅适用于数值数据。
将它们应用于名称/日期/价格类型的数据没有多大意义。
顾名思义,该算法需要计算均值。您将如何计算“名称”列中的平均值?您可以修改日期,但不能修改名称。
不适合您的工作的工具。
关于machine-learning - 聚类算法(如 Kmeans 和 EM)的特征缩放(归一化),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26665479/