python - sklearn 聚类 : Fastest way to determine optimal number of cluster on large data sets

标签 python scikit-learn cluster-analysis data-mining bigdata

我使用 KMeanssilhouette_score从 sklearn in python 计算我的集群,但是在 >10.000 个样本和 >1000 个集群上计算 silhouette_score 非常慢。

  1. 是否有更快的方法来确定最佳簇数?
  2. 或者我应该更改聚类算法吗?如果是,对于具有 >300.000 个样本和大量聚类的数据集,哪种算法最好(也是最快)?

最佳答案

剪影得分是一种更具吸引力的指标,iw O(n^2)。这意味着,计算分数比计算 k-means 聚类要昂贵得多!

此外,这些分数只是启发式的。它们不会以任何方式产生“最佳”聚类。他们只给出了如何选择 k 的提示,但很多时候您会发现其他 k 更好!所以不要盲目相信这些分数

关于python - sklearn 聚类 : Fastest way to determine optimal number of cluster on large data sets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41343453/

相关文章:

r - 聚类向量在 R 中得到一个零一矩阵

java - 在不同线程、JVM 和服务器之间使用 Hibernate

python - 我如何使用列表的 random.choice 作为其他列表从 random.choice 的条件?

python - 仅将 tf.nn.softmax() 应用于张量的正元素

python - 混合数据类型的转换器

python - 如何评估随机森林分类器的性能?

algorithm - 如何聚类对象(无坐标)

python - Spyder IDE 控制台历史

python按两列分组,按一个索引提取第一个元素

python - 使用 joblib 的 sklearn 转储模型,转储多个文件。哪个是正确的模型?