我使用 KMeans和 silhouette_score从 sklearn in python 计算我的集群,但是在 >10.000 个样本和 >1000 个集群上计算 silhouette_score 非常慢。
- 是否有更快的方法来确定最佳簇数?
- 或者我应该更改聚类算法吗?如果是,对于具有 >300.000 个样本和大量聚类的数据集,哪种算法最好(也是最快)?
最佳答案
剪影得分是一种更具吸引力的指标,iw O(n^2)。这意味着,计算分数比计算 k-means 聚类要昂贵得多!
此外,这些分数只是启发式的。它们不会以任何方式产生“最佳”聚类。他们只给出了如何选择 k 的提示,但很多时候您会发现其他 k 更好!所以不要盲目相信这些分数。
关于python - sklearn 聚类 : Fastest way to determine optimal number of cluster on large data sets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41343453/