有人知道对离散属性和连续属性执行聚类的好算法吗?我正在研究识别一组相似客户的问题,每个客户都有离散和连续的属性(思考客户类型、该客户产生的收入金额、地理位置等)
K-means 或 EM 等传统算法处理连续属性,如果我们混合使用连续属性和离散属性会怎样?
最佳答案
如果我没记错的话,COBWEB 算法可以处理离散属性。
您还可以对离散属性执行不同的“技巧”,以创建有意义的距离度量。
您可以在谷歌上搜索分类/离散属性的聚类,这是第一个点击:ROCK: A Robust Clustering Algorithm for Categorical Attributes .
关于algorithm - 具有离散和连续属性的聚类算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/829644/