python - sklearn 聚类 : Fastest way to determine optimal number of cluster on large data sets

标签 python scikit-learn cluster-analysis data-mining bigdata

我使用 KMeans和 silhouette_score从 sklearn in python 计算我的集群，但是在 >10.000 个样本和 >1000 个集群上计算 silhouette_score 非常慢。

是否有更快的方法来确定最佳簇数？
或者我应该更改聚类算法吗？如果是，对于具有 >300.000 个样本和大量聚类的数据集，哪种算法最好(也是最快)？

最佳答案

剪影得分是一种更具吸引力的指标，iw O(n^2)。这意味着，计算分数比计算 k-means 聚类要昂贵得多!

此外，这些分数只是启发式的。它们不会以任何方式产生“最佳”聚类。他们只给出了如何选择 k 的提示，但很多时候您会发现其他 k 更好!所以不要盲目相信这些分数。

关于python - sklearn 聚类 : Fastest way to determine optimal number of cluster on large data sets，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41343453/

上一篇：python - 装饰器使函数返回 None

下一篇：Python - 嵌套空列表的内存大小

相关文章：

r - 聚类向量在 R 中得到一个零一矩阵

java - 在不同线程、JVM 和服务器之间使用 Hibernate

python - 我如何使用列表的 random.choice 作为其他列表从 random.choice 的条件？

python - 仅将 tf.nn.softmax() 应用于张量的正元素

python - 混合数据类型的转换器

python - 如何评估随机森林分类器的性能？

algorithm - 如何聚类对象(无坐标)

python - Spyder IDE 控制台历史

python按两列分组，按一个索引提取第一个元素

python - 使用 joblib 的 sklearn 转储模型，转储多个文件。哪个是正确的模型？